Stability AI Perşembe günü, açık ağırlıklara sahip yeni nesil görüntü sentezi modeli olan Stable Diffusion 3'ü duyurdu. Metin oluşturmada gelişmiş kalite ve doğrulukla ayrıntılı, çok konulu görüntüler oluşturarak öncüllerini takip ediyor. Kısa duyuruya halka açık bir demo eşlik etmedi ancak istikrar sağlandı. Bekleme listesini aç Bugün denemek isteyenler için.
Stable, Stable Diffusion 3 model ailesinin (“istemler” adı verilen metin açıklamalarını alıp bunları karşılık gelen görüntülere dönüştüren) 800 milyon ila 8 milyar parametre arasında değiştiğini söylüyor. Ölçek, modelin farklı versiyonlarının akıllı telefonlardan sunuculara kadar çeşitli cihazlarda yerel olarak çalıştırılmasına olanak tanıyor. Parametre boyutu kabaca modelin üretebileceği ayrıntı miktarı açısından kapasitesine karşılık gelir. Daha büyük modellerin çalışması için GPU hızlandırıcılarında daha fazla VRAM gerekir.
2022'den beri Stable'ın yapay zeka görüntü oluşturma modellerinin evrimini başlattığını görüyoruz: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo ve şimdi de 3. Stabilite, OpenAI'nin DALL-E 3'ü gibi tescilli görüntü sentezi modellerine daha açık bir alternatif sunarak adından söz ettirdi, ancak telif hakkıyla korunan eğitimin kullanılması nedeniyle tartışmasız da değil veri. Önyargı ve kötüye kullanım potansiyeli. (Bu, çözülmemiş davalara yol açtı.) Kararlı durum yayılma modelleri açık ağırlıklı ve açık kaynaktı; bu, modellerin yerel olarak çalıştırılabileceği ve çıktılarını değiştirecek şekilde ayarlanabileceği anlamına geliyordu.
Teknik iyileştirmelerle ilgili olarak Stability CEO'su Imad Mushtaq şunları söyledi: kitabın Üzerinde
Mostaque'un dediği gibi Stable ailesi Difüzyon 3 kullanıyor Difüzyon transformatörlerinin yapısıalışılagelmiş görüntü yapı taşlarının yerini alan, yapay zekayı kullanarak görüntü oluşturmanın yeni bir yöntemi (ör. UNET mimarisi) görüntünün küçük parçaları üzerinde çalışan bir sistem için. Bu yöntem, desenler ve dizilerle baş etmede iyi olan transformatörlerden ilham almıştır. Bu yaklaşımın verimliliği artırmasının yanı sıra daha kaliteli görüntüler ürettiği de söyleniyor.
Stabil Difüzyon 3 de kullanılıyor”Akış eşleştirme“, rastgele gürültüden düzgün yapılandırılmış bir görüntüye nasıl gidileceğini öğrenerek görüntüler oluşturabilen yapay zeka modelleri oluşturmaya yönelik bir tekniktir. Bunu, sürecin her adımını simüle etmek zorunda kalmadan yapar ve bunun yerine, görüntüdeki genel yön veya akışa odaklanır. Görüntü oluşturma işlemi takip etmeli mi?
Stable Diffusion 3'e (SD3) erişimimiz yok, ancak Stable web sitesinde ve ilgili sosyal medya hesaplarında yayınlanan örneklerden, Nesiller şu anda diğer modern fotomontaj modelleriyle kabaca karşılaştırılabilir görünüyor. Yukarıda bahsedilen DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney ve Google Imagen dahil.
SD3, başkaları tarafından sağlanan ve muhtemelen isteğe göre seçilmiş örneklerde metin oluşturmayı çok iyi ele alıyor gibi görünüyor. Metin oluşturma, önceki görüntü montajlarında belirli bir zayıflıktı, dolayısıyla bu yeteneğin serbest biçimde geliştirilmesi büyük önem taşıyor. Ayrıca hız doğruluğu (istemlerdeki açıklamalara ne kadar yakından uyduğu) DALL-E 3'e benzer görünüyor, ancak bunu henüz kendimiz test etmedik.
Stable Diffusion 3 yaygın olarak mevcut olmasa da Stability, test tamamlandığında ağırlıklarının ücretsiz olarak indirilip yerel olarak çalıştırılabileceğini söylüyor. Stability, “Bu önizleme aşaması, önceki modellerde olduğu gibi, açık sürümden önce performansını ve güvenliğini artıracak fikirlerin toplanması açısından kritik öneme sahip” diye yazdı.
Kararlılık son zamanlarda çeşitli görüntü montaj mimarileriyle denenmiştir. Şirket, SDXL ve SDXL Turbo dışında geçen hafta duyurdu Kararlı kadememetni bir görselin üzerine yerleştirmek için üç aşamalı bir işlem kullanır.
Resim şuna göre listeleniyor: Imad Mushtaq (İstikrar için Yapay Zeka)
. “Çıldırtıcı derecede alçakgönüllü bira ustası. Gururlu domuz pastırması evangelisti. Tam bir twitter bilgini. Problem çözücü. Dost düşünür.”
More Stories
Visions Of Mana, iki kat daha uzun sürebilen 30 saatlik bir RPG’dir
Sızıntılar, iddia edilen PS5 Pro cihazının adını ve tasarımını ortaya koyuyor
iPhone 17 Pro Max, iPhone 17 Pro ve diğer modellere göre daha fazla rastgele bellek ve daha iyi bir soğutma sistemiyle gelecek.