Yapay Zeka Yanlılığı Azaltılabilir mi?

OpenAI’nin geçen yıl dönüm noktası niteliğindeki DALL·E 2 ve ChatGPT sürümleriyle, insanlar yapay zeka ile etkileşime girme potansiyelini biraz da olsa ilk elden görme fırsatı yakaladı.

Yazan: Couchbase İş Ortaklıkları Çözüm Mühendisi Aaron Schneider

Söz konusu bu araçlar size ilk başta bir sihir gibi gelebilir. Araçlar, sizden bir metin ister ve ardından bu metin üzerine size bir yanıt verir. DALL·E metninizi bir resme dönüştürürken ChatGPT sizinle sohbet eder. Örnek olarak, DALL·E’den uykulu bir kedi yavrusu isterseniz size çarpıcı imgelerden oluşan bir seçim sunacaktır. ChatGPT’den Amerikan Devrimi hakkında bir makale yazmasını isterseniz de size oldukça başarılı bir tez sunacaktır.
Tabii ki bu ve benzeri araçlar bir sihir değildir ve kesinlikle yanılmadıklarını da söyleyemeyiz. Biraz dikkatli bakmaya ve incelemeye başladığınızda sorunları da göreceksiniz. DALL·E’den eller veya yazılı bir metin gibi bir şey mi istediniz? Büyük ihtimalle eller ve harflerin anlamsız dizilişi gibi bir çıktı elde ederek hayal kırıklığına uğrayacaksınız. Amerikan Devrimi üzerine istediğiniz tez ise bazı olgusal yanlışlıklar veya garip kelime seçimleri içerecek.

Yukarıda, “gerçeğe yakın el sallama” hareketinde elin garip duruşunu ve Amerikan Devrimi makalesindeki tekrar eden cümleleri görebilirsiniz.

Bu iki yapay zeka aracının viral olması, yapay zeka araçlarının demokratikleştirilmesi ile ilgili karmaşık sosyal ve yasal sorunlarla bizi karşı karşıya bıraktı. Örnek vermemiz gerekirse, yapay zeka telif hakkı yasalarını nasıl etkileyecek? Yapay zeka tarafından üretilen bir resim, bir insan tarafından yapılan resim kadar değerli midir? Sanatçı ve içerik üreticilerinin kariyerlerinin geleceği nasıl olacak? Amerikan Devrimi üzerine yazdırdığınız makaleyi üniversite profesörünüze teslim edebilecek misiniz? Muhtemelen hayır.

Bu sorular bu yazının konusu değil, bu soruların yerine şunu soracağız: Google neden bir arama aracı olarak ChatGPT’ye benzer bir şey uygulamadı?

Yapay zeka güvenilir mi?

ChatGPT’nin piyasaya sürülmesinin ardından verilen ilk tepkilerden bazıları Google’ın başının dertte olduğu yönündeydi. ChatGPT’ye sorabilecekken neden Google’da arama yapıp sorunuzun yanıtını arayan bağlantıları tıklayasınız ki? Google’ın buna yönelik hamlesi nerede? Google, yapay zekaya yaptığı önemli yatırımlarla böyle bir aracı çoktan üretmiş olabilir mi?

Aslında büyük ihtimalle ürettiler. Kullanıcıların Pluto gezegeniyle konuşabileceği ve ona istediği soruları sorabileceği LaMDA AI adlı kendi doğal dil motorlarının demolarını paylaştılar. Yine de Google henüz bunu herkese açık olacak bir şekilde piyasaya sürmedi. İleride neden olmasın?

Google CEO’su Sundar Pichai, yakın zamandaki geniş katılımlı bir şirket toplantısında böyle bir ürünün itibar riski taşıdığını belirtti. Pichai, müşterilerin Google’ın arama sonuçlarına güvendiğini ve “arama benzeri uygulamalar için tahmin edilebileceği gibi gerçekliğin çok önemli olduğunun ve diğer uygulamalar için yanlılık, toksisite ve güvenlik sorunlarının da yine çok büyük önem taşıdığının” üzerinde durdu.

Evet, yanlış arama sonuçları Google’ın imajına zarar verir, ancak bu söylemin ikinci kısmı gerçek riski ortaya çıkarıyor. Soruyu ifade etme şeklinizle, ChatGPT’nin size korkunç derecede yanlış veya son derece saldırgan şeyler söylemesini sağlayabilirsiniz. Örnek olarak, California Üniversitesi’nden Steven Piantadosi, ChatGPT’nin insan beyninin değerini ırk ve cinsiyete göre sınıfladığını ortaya çıkardı.

Google yavaş ve sistemli bir şekilde yapay zekanın geleceğinin yol haritasını hazırlarken, diğerleri statükoyu bozma fırsatını değerlendiriyor. Microsoft temel ürünlerinden bazılarının (Office ve Bing) OpenAI teknolojisiyle entegre edileceğini duyurdu ve yapay zeka motorlarının neden itibar zedeleyici bir potansiyele sahip olduğunu anlamak için daha yakından bir inceleme yapmamız gerekiyor. Bunlar yapay zekanın kusuru değil, nedenlerini anlamak için örtünün altına bakmamız gerekiyor.

Yapay Zekanın Beyninin İçi

DALL·E ve ChatGPT’nin her ikisi de Makine Öğrenimi modelleridir. Bir girdiye karşılık bir çıktı gönderen tahmine dayalı sistemler oluşturmak için oldukça iyi araştırılmış modelleme teknikleri kullanırlar. DALL·E, internetten milyarlarca resim ve caption ile beslenerek bunların nasıl birbirleriyle ilişkili olduğunu öğrendi. Böylece yeni bir caption verildiğinde eşleşen bir görüntü oluşturabiliyor. ChatGPT ise, internetten metinler alan GPT3 dil modelini temel alıyor ve böylece bir komut verildiğinde bir sonraki kelimenin ne olacağını tahmin edebiliyor. Bu, daha sonra ChatGPT’yi oluşturmak için bir diyalog çerçevesinde uygulandı.

ChatGPT gibi modellerin saldırgan, ırkçı veya cinsiyetçi sonuçlar üretmesinin nedeni, milyonlarca saldırgan içerik örneği içeren bir veri kümesi üzerinde eğitilmiş olmasından kaynaklanıyor. İnternet ortamı, filtrelenmemiş, korkunç şeyler söyleyen insanlarla dolu ve interneti bir modeli eğitmek için veri kaynağı olarak kullanmak, şüphesiz ona da aynı şeyleri söylemeyi öğretecektir. Bir bebeğe sadece küfür ederek konuşmayı öğrettiğinizi düşünün. Bebeğin ilk kelimesinin ne olabileceğini tahmin edebilirsiniz.

Bu durum, Google gibi şirketlerin neden bu devasa ve karmaşık yapay zeka modellerini piyasaya sürmekten çekindiğini açıklıyor. Modelin karmaşık eğitiminin sonunda olasılıklarla dolu bir kara kutu var. Belirli bir girdi verildiğinde, kara kutunun müstehcen bir çıktı verip vermeyeceğinden emin olamazsınız.
Bu yeni bir sorun değil. Bir yapay zeka modeli, insan yazarının veri kümesi aracılığıyla içsel önyargılarını yansıttığında ortaya çıkan kavram yapay zeka yanlılığı olarak adlandırılır. Çöp içeri, çöp dışarı.

Öyleyse, ürünlerinde yapay zeka kullanan şirketler, yapay zeka yanlılığını ve zararlı, saldırgan bir yapay zeka modelini üretime sokma riskini nasıl azaltabilir? Microsoft, Google ve diğer şirketler, müşterilerinin ve markalarının riskini azaltmak için neler yapabilir?

Shift Right: ChatGPT Yaklaşımı

OpenAI, ChatGPT’yi piyasaya sürmeden önce önce bu sorunun kesinlikle farkındaydı ve buna karşı bir takım korumalar inşa ettiler. Yaklaşımları ise oldukça basitti. ChatGPT’nin uygunsuz yanıtlara yol açabilecek sorulara yanıt vermesine izin vermemek. ChatGPT, yanıt vermeyeceği veya özel olarak nasıl yanıt vereceği öğretilmiş olan yasaklanmış anahtar sözcük ve ifadelerin yer aldığı bir listesi bulunuyor.

Bu, çoğu durumda OpenAI’nin ChatGPT’nin yanlış bir şey söylemesini engellediği anlamına geliyor. Bununla birlikte, kullanıcıların ChatGPT’yi yanlış şeyler söylemesi için manipüle edebilmesi, modelin yapay zeka yanlılığından muzdarip olduğuna ve doğasında zaten var olan zararlı dili veri kümesinden öğrendiğine işaret ediyor. Tabii ki OpenAI, yanlılıkların ortaya çıkmasını önlemek için daha fazla filtre ve strateji oluşturmaya devam edecek, fakat onlar yine hep bir kenarda olacak.

Bu “shigt right” stratejisidir. Riskin geçmesini engellemek için sürecin sonuna bir kapı koymak olarak düşünebiliriz. Kesinlikle kusursuz bir strateji değil.

Shift Left: İtibar Açısından Güvenli Yaklaşım

Daha uzun vadeli bir strateji, sürecin başlangıcına bakmaktır. Model öğrenme şansı bulamadan önce yanlılıkları veri kümesinden kaldırırsanız, taraflı bir yapay zeka oluşturma olasılığını etkili bir şekilde geçersiz kılmış olursunuz.

OpenAI, GPT3 ve DALL·E’nin müstehcen metin ve resimlere maruz kalmasını sınırlamaya çalışsa da yüzde 100 etkili olamadı. İnternet gibi devasa boyutta bir veri kümesine bakıldığında, böyle bir çözüm OpenAI gibi bir araştırma grubu için çok pahalı ve karmaşıktır. İnternetin geniş kapsamını göz önüne almasak bile, çevrimiçi ırkçılık ve cinsiyetçilik nüansını manuel olarak bile tespit etmek ve ortadan kaldırmak çok zordur.

Bu, daha küçük çapta bir kullanım senaryosunu hedefleyen yapay zeka projeleri için geçerli değildir. Çoğu işletme genel bir yapay zeka ürünü oluşturmaya çalışmıyor ve bu strateji daha ölçeklenebilir bir yaklaşım olarak öne çıkıyor.

Yanlılıkları Otomatik Olarak Kaldırma: Couchbase Yaklaşımı

Şirket değerlerine uygun bir şekilde veri güvenliğine büyük önem veren Couchbase, kullanıcıları tarafsız yapay zeka modelleri oluşturma konusunda güçlendirmeyi amaçlamaktadır. Bu nedenle, bulut veritabanı platformumuz için Couchbase Eventing hizmetini oluşturduk ve bu hizmetle araştırmacıların kişiye özel, korunan bilgileri bir yapay zeka veri kümesinden otomatik olarak kaldırmasına olanak tanıyoruz.

Couchbase kullanarak, size eşsiz bir performans sunan ve veri kümenizi sorgulamak için SQL++ kullanma yeteneği sağlayan bellek öncelikle mimariye de erişim sağlayabilirsiniz. Bir sonraki yapay zeka projenizde bu NoSQL veritabanının potansiyelini açığa çıkarın.

Sizin de bu konuda söyleyecekleriniz mi var?