Intel Laboratuvarları, Yeni Yapay Zekâ Modellerini Çıkarıyor

VI-Depth 1.0 ve MiDaS 3.1 açık kaynaklı yapay zekâ modelleri, bilgisayar görüşü için derinlik tahminini geliştiriyor.

Derinlik tahmini; robotik, artırılmış gerçeklik (AR) ve sanal gerçeklik (VR) alanlarında geniş bir uygulama yelpazesi oluşturmak için gerekli olan zorlu bir bilgisayar görüşü görevidir. Mevcut çözümler genellikle mesafeleri doğru bir şekilde tahmin etmekte zorlanıyor ki bu, görsel navigasyon söz konusu olduğunda hareketi planlamada ve engellerden kaçınmada hayati bir husustur. Intel Laboratuvarları’ndaki araştırmacılar, bu sorunu, monoküler derinlik tahmini için iki yapay zekâ modeli çıkararak ele alıyor. Bu modellerden biri görsel-eylemsel derinlik tahmini, diğeriyse sağlam göreli derinlik tahmini (RDE) için.

En son RDE modeli olan MiDaS sürüm 3.1, girdi olarak yalnızca tek bir görüntü kullanarak sağlam göreli derinliği tahmin ediyor. Geniş ve çeşitli bir veri kümesi üzerinde eğitildiği için, daha geniş bir görev ve ortam kümesinde verimli bir şekilde çalışabilir. MiDaS’ın en son sürümü, daha büyük eğitim seti ve güncellenmiş kodlayıcı omurgalarıyla RDE için model doğruluğunu yaklaşık yüzde 30 oranında artırıyor.

MiDaS, başta Stable Diffusion 2.0 olmak üzere birçok projeye dahil edildi. Stable Diffusion 2.0’da bir giriş görüntüsünün derinliğini çıkaran ve ardından hem metin hem de derinlik bilgilerini kullanarak yeni görüntüler oluşturan derinlikten görüntüye özelliğini etkinleştiriyor. Örneğin, dijital oluşturucu Scottie Fox, 360 derecelik bir VR ortamı oluşturmak için Stable Diffusion ve MiDaS’ın bir kombinasyonundan yararlandı. Bu teknoloji hukuk davaları için olay yeri rekonstrüksiyonu, sağlık hizmetleri için terapötik ortamlar ve sürükleyici oyun deneyimleri gibi yeni sanal uygulamalara yol açabilir.

RDE iyi bir genelleştirilebilirliğe sahip ve kullanışlı. Ancak ölçek eksikliğinden ötürü; haritalama, planlama, navigasyon, nesne tanıma, 3D rekonstrüksiyon ve görüntü düzenleme gibi metrik derinlik gerektiren görevlerde çok fayda sağlayamıyor. Intel Laboratuvarları’ndaki araştırmacılar bu sorunu, doğru derinlik tahmini sağlayan başka bir yapay zekâ modeli olan VI-Depth’i çıkararak ele alıyor.

VI-Depth, metrik ölçekli yoğun derinlik tahminleri üretmek için monoküler derinlik tahmini ve görsel-ataletsel odometreyi (VIO) entegre eden bir görsel-ataletsel derinlik tahmini işlem hattıdır. Bu yaklaşım; olay yeri rekonstrüksiyonu, haritalama ve nesne manipülasyonuna yardımcı olabilecek doğru derinlik tahmini sağlar.

Ataletsel verilerinin dahil edilmesi, ölçek belirsizliğinin giderilmesine yardımcı olabilir. Çoğu mobil cihazda zaten ataletsel ölçüm birimleri (IMU’lar) bulunuyor. Küresel hizalama uygun küresel ölçeği belirlerken, yerel olarak çalışan yoğun ölçek hizalaması (SML) bölgeleri doğru metrik derinliğe doğru iter veya çeker. SML ağı, kodlayıcı omurgası olarak MiDaS’tan yararlanıyor. Modüler hatta VI-Depth, IMU sensör ölçüm biriminin yanı sıra MiDaS göreceli derinlik tahmin modeliyle veri odaklı derinlik tahminini birleştiriyor. Veri kaynaklarının kombinasyonu, VI-Depth’in bir görüntüdeki her piksel için daha güvenilir yoğun metrik derinlik üretmesini sağlıyor.