İzleyici Puanı: 27 Yapay Zeka Modeli, ChatGPT 8. Sırada - İşte Onu Geride Bırakan Modeller

Dünya olmasına rağmen yapay zeka (AI) Çoğu zaman çalkantılı bir alan gibi görünse de, sahne arkasında şaşırtıcı miktarda analiz, kıyaslama ve test yapılıyor. Bunlar yalnızca şirketler tarafından değil, aynı zamanda kendi sıralamalarını belirlemek için oluşturulan gruplar tarafından da yapılıyor.

Bu gruplar, bir sohbet robotunun matematik testlerini tamamlama yeteneğinden,
Resimler oluşturunveya mantıklı açıklamalarda bulunabilir, hatta tıbbi tavsiyelerde bulunabilir, ya da sadece duygusal zekasının ne kadar yüksek olduğunu gösterebilir.

Bu çeşitli testler sırasında modeller, farklı alanlardaki güçlü ve zayıf yönlerini ortaya koyar. Örneğin, GPT 5 Bilimsel çıkarımda çok başarılıdır, ancak yeni kavramlara uyum sağlama yeteneği bakımından Gemini ve Claude gibilerinin gerisinde kalır.

Bu testlerin her biri bize yapay zeka modelleri hakkında yeni bir şeyler anlatıyor ve farklı senaryolarda hangi araçların en iyi olduğunu hatırlatmaları açısından önemli. Ancak genellikle eksik olan bir ölçüt var: Hangi yapay zeka modelleri en iyi kullanıcı deneyimini sunuyor?

İnsan sınıflandırma sistemi

Prolific adlı İngiltere merkezli bir teknoloji şirketi, Humaine adlı bir yapay zeka liderlik tablosuProlific, yapay zekanın görevleri tamamlama yeteneğini test etmek yerine, bu modellerle farklı kullanıcı deneyimlerini test etti.

21,352 kişinin araçlarla ilgili deneyimlerini değerlendirerek, yalnızca genel bir kazanan bulmakla kalmayıp, sonuçları yaşa, konuma (testler hem İngiltere'de hem de ABD'de yapıldı) ve siyasi inançlara göre de ayırabildiler.

Bunlara şunlar için bireysel listeler de dahildir:

Birleşik Krallık: Yaş Grupları
Birleşik Krallık: Irk
Birleşik Krallık: Siyasi Bakış Açısı
Amerika Birleşik Devletleri: Yaş Grupları
Amerika Birleşik Devletleri: Irk
Amerika Birleşik Devletleri: Siyasi Bakış Açısı

Ekip, her katılımcının iki ayrı yapay zeka modeliyle karşılaştırmalı olarak etkileşime girmesini sağladı ve her etkileşimde hangi modelin daha iyi performans gösterdiğine dair geri bildirim sağlamalarını istedi.

Bu, performans için genel bir kazanan ve liderlik tablosunun yanı sıra, temel görev performansı ve muhakeme için ayrı sıralamaların yanı sıra iletişim, dayanıklılık, güven ve etik için de bir kazananla sonuçlandı.

Sonuçlar ne gösteriyor?

Kapsamlı bir incelemenin ardından, yalnızca genel performans kategorisinde değil, çoğu alt kategoride de açık ara kazanan ortaya çıktı. Gemini 2.5-Pro, testin incelediği neredeyse her kriterde mükemmel sonuçlar elde etti.

İngiltere'de 18-34 yaş aralığındaki gençler, Demokrat seçmenler ve ABD'de 55 yaş üstü seçmenler şu konuda hemfikir: İkizler 2.5 Pro Genel olarak en iyi model. Tüm demografik özelliklerin Gemini'den daha yüksek puan aldığı tek alan güven, etik ve emniyetti ve bu da Grok-3'tü. Yapay zeka modellerinin son zamanlarda karşılaştığı bazı güvenlik ve etik sorunları göz önüne alındığında bu biraz ironik bir bulgu.

İlginçtir ki, Gemini'den sonra ortaya çıkan üç model Deepseek, Magistral Le Chat ve grokDeepseek bu yılın başlarında önemli bir popülerlik kazanmış olsa da son zamanlarda radardan düştü. Le Chat ise daha az popüler bir sohbet robotu olsa da sadık bir hayran kitlesine sahip.

Peki dünyaca ünlü ChatGPT tüm bunların neresinde? Listenin en altında, en yüksek puana sahip GPT-4.1 modeliyle sekizinci sırada yer alıyor. Daha da kötüsü ise Claudedört edisyonunda genel klasmanda onbirinci ve onikinci sıralarda yer aldı.

Peki tüm bunlar ne anlama geliyor?

Bu, Gemini'nin dünyanın en iyi yapay zeka sohbet robotu olduğu anlamına mı geliyor? ChatGPT'yi bırakmanız gerektiği anlamına mı geliyor...? Aslında tam olarak öyle değil.

Bu sonuçlar, bu modellerin performansını yansıtmayabilir. Diğer çoğu metrikte test ettiğimizde, genellikle en üstte gördüğümüz seçenekler ChatGPT, Gemini, Claude ve Grok'tur.

Ancak bu, bu testlere önemli bir katkı sağlıyor. Yapay zekâyı insan deneyimi perspektifinden daha iyi anlamamıza yardımcı oluyorlar. Örneğin, Le Chat standart ölçütlerde yüksek puanlar almasa da, deneyim ve güvenilirlik açısından genellikle mükemmel bir seçim olarak gösteriliyor.

Anthropic ve OpenAI'nin performansları bu test turunda bu seviyeye ulaşamamış olsa da, hem Gemini hem de Grok için yine güçlü bir performanstı. Her iki şirket de kıyaslama testlerinde sıklıkla yüksek puanlar alıyor ve bu testte de bunu yapmaya devam ettiler.

ChatGPT