Apple: "Büyük Dil Modelleri Mantıktan Yoksun"

Sorgunun anlamını değiştirmeyen küçük bir kelime farklılığı bile doğruluğu %65 oranında düşürebiliyor.

Apple’ın yapay zeka araştırmacıları tarafından yürütülen bir çalışma, OpenAI ve Meta gibi büyük dil modellerine (LLM) dayalı yapay zeka motorlarının temel mantık yeteneklerinden yoksun olduğunu gösterdi. Bu durum LLM’lerin güvenilirliklerinin sorgulanmasına neden olurken, araştırma ekibi bu modellerin mantık becerilerini ölçmek için yeni bir kriter olan GSM-Symbolic adlı bir kıstas geliştirdi.

Matematiksel Akıl Yürütmede Hassasiyet Sorunu

Araştırmacılar, büyük dil modellerinin, sorgulardaki küçük kelime değişikliklerinden veya bağlam eklemelerinden kolayca etkilenerek farklı sonuçlar verebildiğini söylüyor. Matematiğin değişmeyen kuralları üzerinde yürütülen bu testlerde, beklenen sonuç aynı olmasına rağmen modellerin yanıtları arasında önemli farklılıklar tespit edildi. Örneğin çalışmada sorulan matematik sorusuyla “ilgili” görünebilecek ek bir cümle eklemesi, nihai yanıtın doğruluğunu %65 oranında düşürebiliyor.

Mantıklı bir Zemin Üzerine LLM İnşa Etmek

Araştırma, bu gibi ufak değişikliklerin modelin cevabını bu kadar etkilemesinin güvenilir LLM’ler yaratmanın önünde büyük bir engel olduğunu belirtiyor. Çalışmanın sonuç raporunda, “Büyük dil modellerinin bu tür davranışlarının, karmaşık bir örüntü eşlemenin ötesine geçtiğine dair hiçbir mantıklı kanıt bulamadık” ifadesine yer verildi. Ayrıca, bir ismi değiştirmenin bile sonucu değiştirebilecek kadar “kırılgan” bir yapı sunduğu vurgulandı.

Apple’ın bulguları, LLM’lerin mantıklı düşünme kabiliyetleri konusunda teknoloji dünyasında önemli tartışmalar yaratırken, güvenilir yapay zeka uygulamalarının geliştirilmesi için daha sağlam temellere ihtiyaç duyulduğunu gösteriyor.

Apple: “Büyük Dil Modelleri Mantıktan Yoksun”

Sorgunun anlamını değiştirmeyen küçük bir kelime farklılığı bile doğruluğu %65 oranında düşürebiliyor.

Matematiksel Akıl Yürütmede Hassasiyet Sorunu

Mantıklı bir Zemin Üzerine LLM İnşa Etmek

Yazar Hakkında

EPN Haber Merkezi

Sizin de bu konuda söyleyecekleriniz mi var?

Sorgunun anlamını değiştirmeyen küçük bir kelime farklılığı bile doğruluğu %65 oranında düşürebiliyor.

Matematiksel Akıl Yürütmede Hassasiyet Sorunu

Mantıklı bir Zemin Üzerine LLM İnşa Etmek

Yazar Hakkında

EPN Haber Merkezi

Bu haberler de İlginizi Çekebilir

Sizin de bu konuda söyleyecekleriniz mi var?