Yeni bir araştırma, ChatGPT'nin neden hala bilgi üretmeye devam ettiğini ortaya koyuyor.

Bir gün fikir alışverişinde bulunuyordum ChatGPT Aniden, benim isteklerimle hiçbir ilgisi olmayan uzun, kurgusal bir hikâyeye başladı. O kadar saçmaydı ki güldüm. Son zamanlarda metin istemlerinde bu kadar çok hata görmüyorum, ama resim oluştururken hâlâ oldukça düzenli olarak görüyorum.

Chatbot'lar neden yapmamaları gereken şeyleri tahmin etmeye devam ediyor?

Araştırmalar, bu halüsinasyonlara yapısal bir sorunun neden olduğunu öne sürüyor; sorunun kökeninde ise yapay zeka modellerini değerlendiren ve güvenilir cevapları ödüllendiren standartlar ve liderlik tabloları yatıyor.

Başka bir deyişle, bir sohbet robotu "Bilmiyorum" dediğinde, testte cezalandırılır. Bu, modellerin, doğru olduğundan emin olmasalar bile, her zaman bir cevap vermeleri için aktif olarak teşvik edildiği anlamına gelir.

Pratikte bu, akıllı asistanınızın belirsizliği kabul etmek yerine tahmin etme olasılığını artırır. Bu, basit, günlük sorgular için zararsız olabilir. Ancak tıbbi sorulardan finansal tavsiyelere kadar daha hassas durumlarda, bu bilinçli hatalar hızla gerçek risklere dönüşebilir.

Deneyimli bir kullanıcı olarak, her zaman gerçekleri kontrol eder ve chatbot'a bir kaynak sorarım. Bazen, bilgi bana abartılı geliyorsa ve bir kaynak sorarsam, chatbot "İyi bir nokta!" veya benzeri bir şey söyler, ancak yanlış olduğunu kabul etmez.

Yeni modeller de bundan muaf değil.

İlginçtir ki, OpenAI makalesi, o3 ve o4-mini gibi çıkarım odaklı modellerin aslında bazı eski modellere göre daha sık halüsinasyon gördüğünü ortaya koydu. Neden mi? Çünkü genellikle daha fazla iddia ortaya koyuyorlar, bu da daha fazla hata olasılığı anlamına geliyor.

Yani, bir modelin çıkarımda daha "akıllı" olması, bilmediği şey hakkında daha doğru olduğu anlamına gelmez.

Bu sorunun çözümü nedir?

Araştırmacılar, çözümün yapay zekayı değerlendirme ve ölçme biçimimizi değiştirmekte yattığına inanıyor. Modelleri "Emin değilim" dedikleri için cezalandırmak yerine, daha değerli testler, kalibre edilmiş yanıtları, belirsizlik göstergelerini veya diğer kaynaklara başvurma yeteneğini ödüllendirmelidir.

Bu, gelecekteki sohbet robotunuzun cevaplarını daha fazla sınırlandırabileceği, "Cevap bu" yaklaşımından ziyade "Düşündüğüm bu, ama emin değilim" yaklaşımına daha fazla güvenebileceği anlamına gelebilir. Daha yavaş görünebilir, ancak zararlı hataları önemli ölçüde azaltabilir. Bu, eleştirel düşünmemizin hâlâ önemli olduğunu kanıtlıyor.

Bu sizin için ne kadar önemli?

ChatGPT, Gemini, Claude veya Grok gibi popüler sohbet robotlarını kullanıyorsanız, muhtemelen daha önce "halüsinasyonlar" görmüşsünüzdür. Bu araştırma, sorunun tamamen modelin kendisiyle değil, test edilme biçimiyle ilgili olduğunu gösteriyor; tıpkı çoğu zaman kimin haklı olabileceğini görmek için oynanan bir şans oyunu gibi.

Kullanıcılar için bu, dikkatli olmamız ve yapay zeka yanıtlarını son söz değil, ilk öneri olarak değerlendirmemiz gerektiği anlamına geliyor. Geliştiriciler içinse bu, gelecekteki yapay zeka asistanlarının kritik hatalar yapmak yerine bilmedikleri şeyleri fark edebilmeleri için başarıyı nasıl ölçtüğümüzü yeniden düşünme zamanının geldiğinin bir işareti.

ChatGPT