Yapay zeka girişim şirketi, önemli bir çıkarım testinde Gemini 3'ü geride bıraktı.

Ortaya çıktığından beri İkizler 3 İlk defa zirvedeki konumunu başarıyla korudu. LMArena Liderlik TablosuBu liste, binlerce gerçek kullanıcının modelleri karşılaştırdığı toplu bir sıralamadır. yapay zeka Birbirlerini çok çeşitli görevlerde doğrudan test ediyor ve en iyi yanıtı oyluyorlar. Ancak en zorlu çıkarım kriterlerini karşılama söz konusu olduğunda, yeni bir yükselen yıldız var ve bu yıldız, kendi modelini eğitmeden Google'ı bile geride bırakmayı başardı.

Poetiq adlı altı kişilik bir girişim şirketi, birinci sırada yer aldığını açıkladı. ARC-AGI-2 Yarı Özel Test KitiBu, yapay zeka araştırmacısı François Chollet tarafından oluşturulan son derece zorlu bir çıkarım testi. Girişim şirketinin sistemi %54'lük bir puan alarak, Google'ın Gemini 3 Deep Think için daha önce açıkladığı yaklaşık %45'lik puanı geride bıraktı.

Bunu daha iyi anlamak için şunu belirtelim: Altı ay öncesine kadar çoğu yapay zeka modeli bu kıyaslamada yüzde 5'in altında kalmıştı. Yüzde 50'yi aşmanın ise araştırmacılar tarafından yıllar süreceği yaygın olarak düşünülüyordu.

Ve en şaşırtıcı kısmı: Poetiq'in atılımı, yepyeni bir sınır modeliyle değil, mevcut modelleri daha akıllıca organize etme yöntemiyle desteklendi.

Poetiq bu başarıyı nasıl elde etti?

Poetiq, sıfırdan devasa bir dönüştürücü inşa etmek yerine, metasistem adını verdiği bir yapı geliştirdi; bu yapı esasen, kendisine bağlanan herhangi bir modelin çıktısını denetleyen, eleştiren ve iyileştiren bir yapay zeka kontrolcüsüdür. Ekip, ARC-AGI-2 çalışmaları için temel model olarak Gemini 3 Pro'yu kullandı.

Poetiq sistemi, sıkı bir şekilde kontrol edilen bir optimizasyon döngüsü olarak tanımlıyor: Oluştur > Eleştir > Geliştir > Kontrol Et.

İşte onu özel kılan özellikler:

Yeniden eğitim gerekmiyor: Sistem, yeni modellere saatler içinde uyum sağlıyor.
Tamamen büyük, hazır dil modelleri üzerine kurulmuştur: Özel düzenleme seçeneği yok.
daha düşük fiyat veya daha ucuz: Google'ın Deep Think sisteminin görev başına maliyetinin 77 dolar olduğu bildiriliyor; Poetiq'in sistemi ise 30 dolara daha yakın.
Açık kaynak: Çözüm herkese açık ve doğrulanabilir niteliktedir.
Öz denetim: Sistem, nihai sonucu vermeden önce kendi yanıtlarını değerlendirir.

Karşı website Poetiq ekibi, bu yaklaşımın, hesaplama gücünü kaba kuvvetle artırmak yerine, mevcut büyük dil modellerinin çıkarım gücünden Plus özelliğini çıkararak işe yaradığını söylüyor.

ARC-AGI-2 testi neden önemlidir?

Çoğu standartlaştırılmış test programlama veya matematik gibi sınırlı becerileri ölçerken, ARC-AGI-2 daha derin bir şeyi test etmek üzere tasarlandı: örüntü tanıma, ölçme, soyut akıl yürütme ve insanların erken çocukluk döneminde öğrendiği türden genelleme.

Bu, kasıtlı olarak zor ve mevcut Büyük Dil Modelleri (LLM'ler) için son derece elverişsiz bir testtir. Hatta birçok gelişmiş model bile bu testte feci şekilde başarısız olmaktadır.

Bu nedenle, tek haneli sonuçlardan yarım yıl içinde yüzde 54'e sıçrama şaşırtıcıydı. Bu, yalnızca ham modelin büyüklüğünde değil, çıkarım yöntemlerinde de ilerleme olduğunu gösteriyor.

Ancak Poetiq sonucu, özellikle kamuya tamamen açık olmayan yarı özel test grubuna özgüdür. Şirketin web sitesinde sonucun kıyaslama kuruluşu tarafından doğrulandığı belirtiliyor; ancak bağımsız üçüncü taraf tekrarlaması henüz beklemede, bu da bu etkiyi ölçen bir kıyaslama testi için önemli bir husus.

Bir sonraki atılım, daha büyük modellerden gelmeyebilir; zira Poetiq'in çalışması, yapay zekada giderek artan bir eğilimi vurguluyor: ilerleme her zaman milyarlarca dolarlık altyapı veya devasa bir araştırma laboratuvarı gerektirmiyor.

Eğer bu tür sistemler standart parametrelerin ötesine geçerek planlama, programlama, araştırma ve hatta gerçek dünya karar verme süreçlerini de kapsayacak şekilde başarılı olurlarsa, yapay zekanın geliştirilme biçimini yeniden şekillendirebilirler. Şirketler, bir sonraki süper bilgisayarı beklemek yerine, bugünkü modelleri daha akıllı, daha ucuz ve daha tutarlı hale getiren karma zeka geliştirmeye odaklanabilirler.

Sonuç

Poetiq, araştırmacıların ARC-AGI'nin sonuçlarını test edebilmeleri, genişletebilmeleri ve hatta sorgulayabilmeleri için açık kaynaklı bir çözüm yayınladı. Standart, gizli bir test seti içeriyor ve geçmiş deneyimler, önemli sayıda kişinin bağımsız değerlendirme yapmasıyla sonuçların değişebileceğini gösteriyor.

Eğer Poetiq'in rakamları doğrulanırsa, yapay zeka çıkarım araştırmalarında bir dönüm noktası olabilir. Altı kişilik bir ekip, model organizasyonunun çok daha büyük modellerin eğitimine rakip olabileceğini, hatta onu aşabileceğini göstermiş olabilir. Poetiq, kazanmak için dev bir laboratuvara ihtiyaç duymadığınızı kanıtladı.

İkizler burcu