Yandex, kullanıcıların metin yoluyla paylaştığı açıklamaları kullanıma hazır görüntü ve animasyonlara dönüştüren yapay sinir ağının geliştirilmiş bir sürümü olan YandexART 1.3’ü duyurdu.
YandexART 1.3, gizli difüzyon (latent diffusion) yoluyla görüntü üretmek için geliştirilmiş bir teknolojiyle donatıldı. Ayrıca, modeli eğitmek için kullanılan görüntü veri kümesi de 2,5 kat büyütüldü. Bu geliştirmeler YandexART’ın metin komutlarını daha iyi anlamasını ve farklı formatlarda daha gerçekçi görüntüler oluşturmasını sağlıyor. YandexART’ın yeni sürümü şu anda Türkiye dahil tüm dünyada Shedevrum uygulamasında kullanılabiliyor.
Gizli difüzyon tekniği daha az hesaplama kaynağı gerektiriyor ve daha yüksek kaliteli grafiklerin oluşturulmasını kolaylaştırıyor. Süreç, gizli kod olarak bilinen bir ara görüntü temsili geliştirerek başlıyor. Bu, sıkıştırılmış formdaki görüntü hakkında temel bilgileri içeren kompakt bir açıklamayı içeriyor. Sinir ağı daha sonra bu kodu tek bir adımda yüksek çözünürlüklü görüntüye dönüştürüyor. Bu teknik, kademeli difüzyonun çok aşamalı iyileştirmesinden daha etkili.
Yandex, modelin kullanıcı istemlerini daha iyi anlamasını sağlamak için eğitim veri setine sentetik metinler olarak bilinen ve sinir ağı tarafından oluşturulan ayrıntılı resim açıklamaları da ekledi. Söz konusu veri kümesi 850 milyondan fazla resim-metin çiftini içerecek şekilde genişletildi. Ayrıca, YandexART’ın kullanıcı istemlerinden daha fazla ayrıntıyı dikkate almasını sağlamak için modele iki metin kodlayıcı dahil edildi. Bu kodlayıcılar, YandexART’ın metin komutlarını doğru bir şekilde yorumlamasını ve bunları makine tarafından okunabilir verilere dönüştürmesini sağlıyor.
Güncellenen YandexART, kullanıcıların 16:9, 4:3 veya 3:4 dahil olmak üzere çeşitli formatlarda görüntüler oluşturmasına olanak tanıyarak bu görüntüleri dergi kapaklarında, televizyonlarda ve daha fazla mecrada kullanılabilir hale getiriyor.
Dahili değerlendirmeler, YandexART 1.3’ün denemelerin %57’sinde Midjourney V5.2’den ve %63’ünde YandexART 1.2’den daha iyi performans gösterdiğini ortaya koyuyor.