DeepSeek, kendini geliştiren modellerle bir sonraki yapay zeka devrimine hazırlanıyor.

Sadece birkaç ay önce, Wall Street'in üretken yapay zekaya olan büyük yatırımı, ortaya çıktığında belirleyici bir an ile karşı karşıya kaldı Derin Arama Sahnede. Son derece kontrollü bir yapıya sahip olmasına rağmen, açık kaynaklı DeepSeek, çığır açan bir çıkarımsal yapay zeka modelinin mutlaka milyarlarca dolar gerektirmediğini ve mütevazı kaynaklarla elde edilebileceğini kanıtladı. Bu, gelişmiş yapay zeka modelleri geliştirmeye ilişkin anlayışımızda büyük bir değişimi temsil ediyor.

Huawei, Oppo ve Vivo gibi dev şirketler tarafından ticari olarak hızla benimsenirken, Microsoft, Alibaba ve Tencent gibi şirketler de hızla platformlarında yer verdi. Şimdi ise gündemde olan Çinli şirketin bir sonraki hedefi, kendilerini geliştirmek için döngüsel bir "yargılama-ödüllendirme" yaklaşımı kullanan kendi kendini geliştiren yapay zeka modelleri üretmek. Bu eğilim, şirketlerin daha verimli ve etkili yapay zeka sistemleri geliştirme yönündeki devam eden arayışlarını yansıtıyor.

Ön baskı bir makalede (via BloombergDeepSeek ve Çin'in Tsinghua Üniversitesi'ndeki araştırmacılar, yapay zeka modellerini kendi kendini geliştirebilecek şekilde daha akıllı ve daha verimli hale getirebilecek yeni bir yaklaşımı açıklıyor. Altta yatan teknik “öz-ilkeli eleştirel kontrol” (SPCT) olarak bilinir ve bu yaklaşım teknik olarak “üretken ödül modellemesi” (GRM) olarak bilinir. Bu yaklaşım, yapay zekâ için takviyeli öğrenme alanında önemli bir gelişmeyi temsil etmektedir.

Basitçe anlatmak gerekirse, bu gerçek zamanlı bir geri bildirim döngüsü yaratmaya benziyor. Bir yapay zeka modeli, öncelikle eğitim sırasında model boyutunun genişletilmesiyle geliştirilir. Bu, çok fazla insan emeği ve bilgisayar kaynağı gerektiriyor. DeepSeek, kullanıcı sorularına yanıt hazırlarken birincil "hakemin" yapay zeka modeli için kendi eleştiri ve ilkelerini ortaya koyduğu bir sistem öneriyor. Bu yaklaşım, eğitim sürecinde yoğun insan kaynağına olan bağımlılığı azaltmayı amaçlamaktadır.

Bu eleştiri ve ilkeler seti daha sonra yapay zeka modelinin temelinde yatan yerleşik kurallarla ve istenen sonuçla karşılaştırılır. Eğer yüksek derecede bir uyum varsa, bir ödül sinyali üretilir ve bu sinyal, yapay zekanın bir sonraki turda daha iyi performans göstermesini etkili bir şekilde yönlendirir. Bu sürekli değerlendirme ve ödüllendirme süreci, modelin öğrenme ve uyum sağlama yeteneğini artırır.

Bunun arkasındaki uzmanlar şunu belirtiyor: Araştırma makalesi DeepSeek-GRM adı verilen yeni nesil kendini geliştiren yapay zeka modellerine. Makalede yer alan kıyaslamalar, bu modellerin Google'ın Gemini'sinden, Meta'nın Llama'sından ve OpenAI'nin GPT-4o'sundan daha iyi performans gösterdiğini ortaya koyuyor. DeepSeek, yeni nesil yapay zeka modellerinin açık kaynak kodlu olarak piyasaya sürüleceğini söylüyor. Açıklığa olan bu bağlılık, yapay zekadaki inovasyon hızını artırabilir.

Kendini geliştiren yapay zeka: Mümkün mü?

Yapay zekanın kendini geliştirebilme yeteneği fikri iddialı ve tartışmalı tartışmaları da beraberinde getirdi. Google'ın eski CEO'su Eric Schmidt, bu tür sistemler için bir "kapatma düğmesine" ihtiyaç duyulabileceğini söyledi. Ve transfer edildi Kısmet Schmidt, "Bir sistem kendini geliştirebiliyorsa, onu enerjisizleştirmeyi ciddi olarak düşünmeliyiz." dedi. Yapay zeka alanındaki en önemli gelişmelerden biri de kendini geliştirebilen yapay zeka sistemleridir.

Tekrar tekrar kendini geliştiren yapay zeka kavramı tamamen yeni bir kavram değil. Daha iyi makineler üretebilen süper zeki bir makine fikri, Dönüş Aslında 1965 yılında matematikçi I. J. Good'a göre. 2007 yılında yapay zeka uzmanı Eliezer Yudkowsky şu hipotezi ortaya attı: Tohum AI, “kendini anlama, kendini değiştirme ve tekrar tekrar kendini geliştirme için tasarlanmış” yapay bir zeka.

2024 yılında Japon şirketi Sakana AI, şu ayrıntıları sundu: Konsept “AI World”, bir araştırma makalesinin üretim hattının başından sonuna kadar yol alabilme kapasitesine sahip bir sistemle ilgilidir. Ve içinde kâğıt Meta uzmanları, bu yılın Mart ayında yayınladıkları bir araştırma makalesinde, eğitim sırasında yapay zekanın kendisinin bir yargıç gibi davranarak ödülleri verdiği kendi kendini ödüllendiren dil modellerini ortaya koydular. Kendi kendini öğrenen yapay zeka sistemlerine doğru bu yönelim, yapay zekanın gelişiminde bir paradigma değişimini temsil ediyor.

Microsoft CEO'su Satya Nadella, AI gelişiminin OpenAI'nin o1 modeli tarafından optimize edildiğini ve tekrarlayan bir faza girdiğini söylüyor: "Daha iyi AI oluşturmak için AI araçları oluşturmak amacıyla AI kullanıyoruz" resim.twitter.com/IHuFIpQl2C

— Tsarathustra (@tsarnick) 21 Ekim 2024

Meta'nın, yenilikçi kendi kendini ödüllendirme teknolojisini kullanan Llama 2 AI modelinin şirket içi testleri, bu modelin Anthropic'in Claude 2, Google'ın Gemini Pro ve OpenAI'nin GPT-4 modelleri gibi rakiplerinden daha iyi performans gösterdiğini gösterdi. Amazon tarafından desteklenen Anthropic Ayrıntılar sağlandı Ödül manipülasyonu adını verdiği, "modelin kendi ödül mekanizmasını doğrudan değiştirdiği" öngörülemeyen bir süreç.

Google da bu fikirden çok geri kalmıyor. Dergide yayınlanan bir çalışmada Tabiat Google DeepMind uzmanları bu ayın başlarında, Minecraft'ı bir egzersiz örneği olarak kullanarak Dreamer adlı kendini geliştirebilen bir yapay zeka algoritmasını gösterdiler.

o çalışıyor IBM uzmanları Çıkarımsal kapanış eğitimi adı verilen kendi yaklaşımlarında, bir yapay zeka modeli kendi yanıtlarını kullanır ve kendini geliştirmek için bunları eğitim verileriyle değerlendirir. Ancak hipotezin tamamı olumlu değil.

Araştırmalar, yapay zeka modellerinin kendi ürettikleri sentetik veriler üzerinde kendilerini eğitmeye çalıştıklarında, halk arasında "model çökmesi" olarak bilinen kusurlarla karşılaştıklarını gösteriyor. DeepSeek'in bu fikri nasıl hayata geçireceğini ve bunu Batılı rakiplerinden daha ekonomik bir şekilde yapıp yapamayacağını görmek ilginç olacak.

Derin Arama