Stability, yeni nesil yapay zeka görüntü oluşturucusu Stable Diffusion 3'ü duyurdu

Yakınlaştır / Vektörlü Kararlı Difüzyon 3. Nesil: Siyah arka plan üzerindeki bir bukalemunun yakın çekim stüdyo portresi.

Stability AI Perşembe günü, açık ağırlıklara sahip yeni nesil görüntü sentezi modeli olan Stable Diffusion 3'ü duyurdu. Metin oluşturmada gelişmiş kalite ve doğrulukla ayrıntılı, çok konulu görüntüler oluşturarak öncüllerini takip ediyor. Kısa duyuruya halka açık bir demo eşlik etmedi ancak istikrar sağlandı. Bekleme listesini aç Bugün denemek isteyenler için.

Stable, Stable Diffusion 3 model ailesinin (“istemler” adı verilen metin açıklamalarını alıp bunları karşılık gelen görüntülere dönüştüren) 800 milyon ila 8 milyar parametre arasında değiştiğini söylüyor. Ölçek, modelin farklı versiyonlarının akıllı telefonlardan sunuculara kadar çeşitli cihazlarda yerel olarak çalıştırılmasına olanak tanıyor. Parametre boyutu kabaca modelin üretebileceği ayrıntı miktarı açısından kapasitesine karşılık gelir. Daha büyük modellerin çalışması için GPU hızlandırıcılarında daha fazla VRAM gerekir.

2022'den beri Stable'ın yapay zeka görüntü oluşturma modellerinin evrimini başlattığını görüyoruz: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo ve şimdi de 3. Stabilite, OpenAI'nin DALL-E 3'ü gibi tescilli görüntü sentezi modellerine daha açık bir alternatif sunarak adından söz ettirdi, ancak telif hakkıyla korunan eğitimin kullanılması nedeniyle tartışmasız da değil veri. Önyargı ve kötüye kullanım potansiyeli. (Bu, çözülmemiş davalara yol açtı.) Kararlı durum yayılma modelleri açık ağırlıklı ve açık kaynaktı; bu, modellerin yerel olarak çalıştırılabileceği ve çıktılarını değiştirecek şekilde ayarlanabileceği anlamına geliyordu.

İddialı Stable Diffusion 3 Generation: Geceleri bir dağın tepesinde, renkli enerjiden yapılmış “Stable Diffusion 3” diyen karanlık gökyüzüne kozmik bir büyü yapan bir büyücünün destansı sanat eseri.
Stable Diffusion 3 tarafından oluşturulan, “Büyük ol ya da eve git” tişörtü giyen bir büyükannenin yapay zeka tarafından oluşturulan görüntüsü.
Hızlı ve üçüncü nesil stabil difüzyon: Ahşap bir masa üzerinde üç şeffaf cam şişe. Soldaki kırmızı sıvı ve 1 rakamıdır. Ortadaki mavi sıvı ve 2 rakamıdır. Sağdaki ise yeşil sıvı ve 3 rakamıdır.
AI, Stabil Difüzyon 3 ile görüntü oluşturdu.
Üçüncü Nesil Hızlı Kararlı Difüzyon: Bir at, yeşil çimlerin ve arka planda bir dağın olduğu bir tarlada renkli bir topun üzerinde dengede duruyor.
Üçüncü nesil natürmortların hızlı bir şekilde çoğaltılması: çeşitli balkabaklarının karamsar natürmortları.
Kararlı Difüzyon 3. nesil, hızlı: Pembe bir şemsiye tutan bir tutu giyen bir domuza binen bir astronotun resmi, yerde domuzun yanında silindir şapka takan bir ardıç kuşu var ve köşede “Kararlı Difüzyon” yazısı var.
Kararlı Difüzyon 3. Nesil İddiasıyla: Mutfak masasının üzerinde “İyi Geceler” yazan işlemeli bir örtü ve işlemeli bir yavru kaplan duruyor. Kumaşın yanında yanan bir mum var. Aydınlatma loş ve dramatik.
Stabil Difüzyon 3. Nesil istemli: Çalışma masası üzerinde 90'lı yıllardan kalma bir masaüstü bilgisayarın resmi, bilgisayar ekranında “Merhaba” yazılı. Arka planda duvarda çok büyük “SD3” yazısının yer aldığı güzel bir grafiti görüyoruz.

Teknik iyileştirmelerle ilgili olarak Stability CEO'su Imad Mushtaq şunları söyledi: kitabın Üzerinde

READ Cidden, Nintendo, Switch Pro'yu piyasaya sürmenin zamanı geldi

Mostaque'un dediği gibi Stable ailesi Difüzyon 3 kullanıyor Difüzyon transformatörlerinin yapısıalışılagelmiş görüntü yapı taşlarının yerini alan, yapay zekayı kullanarak görüntü oluşturmanın yeni bir yöntemi (ör. UNET mimarisi) görüntünün küçük parçaları üzerinde çalışan bir sistem için. Bu yöntem, desenler ve dizilerle baş etmede iyi olan transformatörlerden ilham almıştır. Bu yaklaşımın verimliliği artırmasının yanı sıra daha kaliteli görüntüler ürettiği de söyleniyor.

Stabil Difüzyon 3 de kullanılıyor”Akış eşleştirme“, rastgele gürültüden düzgün yapılandırılmış bir görüntüye nasıl gidileceğini öğrenerek görüntüler oluşturabilen yapay zeka modelleri oluşturmaya yönelik bir tekniktir. Bunu, sürecin her adımını simüle etmek zorunda kalmadan yapar ve bunun yerine, görüntüdeki genel yön veya akışa odaklanır. Görüntü oluşturma işlemi takip etmeli mi?

DALL-E 3 ve OpenAI'nin Stabil Difüzyon 3'ü arasındaki çıkışın yönlendiriciyle karşılaştırılması, "Metinli spor arabanın gece görüntüsü "SD3" Yan tarafta araba, üzerinde devasa bir yol tabelası yazılı olan bir yarış pistinde yüksek hızda gidiyor. — Yakınlaştır / OpenAI'nin DALL-E 3 ve Stable Diffusion 3 çıktılarının “Yanında 'SD3' yazısı olan bir spor arabanın gece görüntüsü, yüksek hızda yarış pistinde araba, 'Daha Hızlı' yazan devasa yol tabelası ile karşılaştırılması '.”

Stable Diffusion 3'e (SD3) erişimimiz yok, ancak Stable web sitesinde ve ilgili sosyal medya hesaplarında yayınlanan örneklerden, Nesiller şu anda diğer modern fotomontaj modelleriyle kabaca karşılaştırılabilir görünüyor. Yukarıda bahsedilen DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney ve Google Imagen dahil.

SD3, başkaları tarafından sağlanan ve muhtemelen isteğe göre seçilmiş örneklerde metin oluşturmayı çok iyi ele alıyor gibi görünüyor. Metin oluşturma, önceki görüntü montajlarında belirli bir zayıflıktı, dolayısıyla bu yeteneğin serbest biçimde geliştirilmesi büyük önem taşıyor. Ayrıca hız doğruluğu (istemlerdeki açıklamalara ne kadar yakından uyduğu) DALL-E 3'e benzer görünüyor, ancak bunu henüz kendimiz test etmedik.

Stable Diffusion 3 yaygın olarak mevcut olmasa da Stability, test tamamlandığında ağırlıklarının ücretsiz olarak indirilip yerel olarak çalıştırılabileceğini söylüyor. Stability, “Bu önizleme aşaması, önceki modellerde olduğu gibi, açık sürümden önce performansını ve güvenliğini artıracak fikirlerin toplanması açısından kritik öneme sahip” diye yazdı.

READ Amazon, Alexa ünlü seslerini veriyor ve talep üzerine geri ödeme yapacak

Kararlılık son zamanlarda çeşitli görüntü montaj mimarileriyle denenmiştir. Şirket, SDXL ve SDXL Turbo dışında geçen hafta duyurdu Kararlı kadememetni bir görselin üzerine yerleştirmek için üç aşamalı bir işlem kullanır.

Resim şuna göre listeleniyor: Imad Mushtaq (İstikrar için Yapay Zeka)

Ayhan

. “Çıldırtıcı derecede alçakgönüllü bira ustası. Gururlu domuz pastırması evangelisti. Tam bir twitter bilgini. Problem çözücü. Dost düşünür.”

Visions Of Mana, iki kat daha uzun sürebilen 30 saatlik bir RPG’dir

Sızıntılar, iddia edilen PS5 Pro cihazının adını ve tasarımını ortaya koyuyor

iPhone 17 Pro Max, iPhone 17 Pro ve diğer modellere göre daha fazla rastgele bellek ve daha iyi bir soğutma sistemiyle gelecek.

Video Oyunu Devrimi: Nostaljiden Sanal Gerçekliğe

Bilim insanları dünyadaki en büyük demir cevheri yataklarında milyar yıllık bir sırrı keşfetti

Federico Chiesa Juventus’tan Liverpool’a transferini tamamladı

Visions Of Mana, iki kat daha uzun sürebilen 30 saatlik bir RPG’dir

Bir yanıt yazın Yanıtı iptal et

More Stories

Visions Of Mana, iki kat daha uzun sürebilen 30 saatlik bir RPG’dir

Sızıntılar, iddia edilen PS5 Pro cihazının adını ve tasarımını ortaya koyuyor

iPhone 17 Pro Max, iPhone 17 Pro ve diğer modellere göre daha fazla rastgele bellek ve daha iyi bir soğutma sistemiyle gelecek.

You may have missed

Video Oyunu Devrimi: Nostaljiden Sanal Gerçekliğe

Bilim insanları dünyadaki en büyük demir cevheri yataklarında milyar yıllık bir sırrı keşfetti

Federico Chiesa Juventus’tan Liverpool’a transferini tamamladı

Visions Of Mana, iki kat daha uzun sürebilen 30 saatlik bir RPG’dir