Google, Flash Thinking'i YouTube, Haritalar ve Arama'ya bağlayan Gemini 2.0 Pro ve Flash-Lite'ı piyasaya sürdü

Google'ın Gemini serisi büyük dil modelleri (LLM) yaklaşık bir yıl önce utanç verici yanlış oluşturulmuş görsellerle sıkıntılı bir başlangıç ​​yapmıştı ancak o zamandan bu yana sürekli olarak gelişti ve şirket ikinci nesil çalışmasını - Gemini 2.0 - tüketiciler ve işletmeler için bugüne kadarki en büyük ve en iyi çalışma haline getirmeye kararlı görünüyor.

اليوم ، Açıklanacak Şirket, Gemini 2.0 Flash'ın kamuoyuna duyurulduğunu, Gemini 2.0 Flash-Lite'ın tanıtıldığını ve Gemini 2.0 Pro'nun beta sürümünün yayınlandığını duyurdu.

Geliştiricileri ve işletmeleri desteklemek için tasarlanan bu modeller artık Google AI Studio ve Vertex AI üzerinden kullanılabilirken, Flash-Lite genel önizleme aşamasında ve Pro ise erken test için kullanıma sunuldu.

Google DeepMind CTO'su Koray Çavuşoğlu, şirketin duyuruyu duyuran blog yazısında, "Tüm bu modeller piyasaya sürüldüğünde metin çıktılı multimedya girişi özelliğine sahip olacak ve Plus medya önümüzdeki aylarda genel kullanıma sunulacak" diye yazdı. Bu, Google'ın, şu rakipler gibi rakiplerine rağmen masaya getirdiği bir avantajı gösteriyor: Derin Arama و OpenAI Güçlü rakipleri piyasaya sürmede.

Google, multimedya yeteneklerinden yararlanıyor

Ne DeepSeek-R1 ne de OpenAI'nin yeni o3-mini modeli Multimedya girdilerini (yani görseller, dosya yüklemeleri veya ekler) kabul edin.

R1 modeli bunları web sitesinde ve mobil sohbet uygulamasında kabul edebilirken, bu yüklemelerden yalnızca metni çıkarmak için 60 yıldan daha eski bir teknoloji olan optik karakter tanıma (OCR) kullanıyor ve bunlardaki diğer özellikleri anlamıyor veya analiz etmiyor.

Ancak her ikisi de, cevapları düşünmek ve "düşünce zincirleri" ile yanıtlarının geçerliliği üzerinde düşünmek için kasıtlı olarak daha fazla zaman harcayan yeni bir "düşünme" modeli sınıfını temsil ediyor. Bu durum, Gemini 2.0 pro serisi gibi tipik büyük dil modellerinden farklıdır, dolayısıyla Gemini 2.0'ı DeepSeek-R1 ve OpenAI o3 ile karşılaştırmak elmaları portakallarla karşılaştırmaya benzer.

Ancak bugün Google'dan düşünce tarafında da bazı haberler geldi: Google CEO'su Sundar Pichai, X platformu Uygulama güncellemesi hakkında Google İkizler Gemini 2.0 Flash Thinking'e sahip iOS ve Android cep telefonları için. Model, Google Haritalar, YouTube ve Google Arama'ya bağlanabiliyor ve DeepSeek ve OpenAI gibi yeni rakiplerin bu hizmetler olmadan eşleşemeyeceği yepyeni bir yapay zeka destekli arama ve etkileşim seti sağlıyor.

Bu yazıyı yazarken iPhone'umdaki Google Gemini iOS uygulamasını kısaca denedim ve ilk sorularıma dayanarak etkileyiciydi, geçen ayın en çok izlenen 10 YouTube videosu arasında benzerlikler buldu ve bana birkaç saniye içinde yakındaki doktor muayenehanelerinin ve açılış/kapanış saatlerinin bir listesini verdi.

Gemini 2.0 Flash Genel Yayını

Başlangıçta beta sürüm olarak piyasaya sürülen Gemini 2.0 Flash modeli, Aralık ayında, artık üretime hazır.

Yüksek verimli yapay zeka uygulamaları için tasarlanan bu çözüm, düşük gecikmeli yanıtlar sunar ve geniş ölçekli çok modlu akıl yürütmeyi destekler.

Rekabete göre en önemli avantajlarından biri, bağlam penceresi, yani bir kullanıcının bir teşvik olarak ekleyebileceği ve bir LLM destekli sohbet robotu veya API ile tek bir ileri geri etkileşimde geri alabileceği token sayısıdır.

Geçtiğimiz hafta tanıtılan OpenAI'nin yeni o3-mini modeli gibi birçok önde gelen model 200000 veya daha az token'ı desteklerken (bu, 400 ila 500 sayfalık bir romana eşdeğerdir), Gemini 2.0 Flash XNUMX milyon token'ı destekliyor; bu da çok büyük miktarda bilgiyi işleyebileceği anlamına geliyor ve bu da onu özellikle yüksek frekanslı, büyük ölçekli görevler için kullanışlı hale getiriyor.

Gemini 2.0 Flash-Lite: Düşük Maliyetli Yapay Zeka Çözümleri

Gemini 2.0 Flash-Lite, kaliteden ödün vermeden uygun maliyetli yapay zeka çözümleri sunmayı hedefleyen yepyeni bir büyük dil modelidir.

Google DeepMind, Flash-Lite'ın aynı fiyatlandırma ve hızı korurken, MMLU Pro (%1.5'ya karşı %77.6) ve Bird SQL (%67.3'e karşı %57.4) gibi harici kıyaslamalarda tam boyutlu (daha parametreli) selefi Gemini 45.6 Flash'tan daha iyi performans gösterdiğini bildiriyor.

Ayrıca multimedya girişini destekliyor ve tam Flash modeline benzer şekilde 1 milyon token'lık bir bağlam penceresine sahip.

Flash-Lite şu anda Google AI Studio ve Vertex AI üzerinden genel önizleme aşamasında sunuluyor ve önümüzdeki haftalarda genel kullanıma sunulması bekleniyor.

Aşağıdaki tabloda görüldüğü üzere Gemini 2.0 Flash-Lite'ın fiyatı milyon token başına 0.075 dolar (giriş) ve milyon token başına 0.30 dolar (çıkış) olarak belirlendi. Flash-Lite, geliştiriciler için oldukça uygun fiyatlı bir seçenek olup, aynı maliyet yapısını koruyarak çoğu kıyaslamada Gemini 1.5 Flash'ı geride bırakıyor.

 

Logan Kilpatrick, Gemini 2.0 Flash modellerinin maliyetini ve değerini vurguladı. X platformunda bahsedildi“Gemini 2.0 Flash, herhangi bir LLM modelinin en iyi değeridir, onu inşa etmenin zamanı geldi!”

Aslında, sağlayıcı API'si aracılığıyla sunulan diğer önde gelen geleneksel LLM modelleriyle karşılaştırıldığında, örneğin OpenAI 4o-mini ($0.15/$0.6 milyon G/Ç belirteci başına) ve Antropik Claude ($0.8/$4! milyon I/O token'ı başına) ve hatta DeepSeek'in geleneksel LLM V3'ü ($0.14/$0.28) bile, Gemini 2.0 Flash para karşılığında en iyi değeri sunuyor gibi görünüyor.

Gemini 2.0 Pro Beta, bağlam penceresinde 2 milyon simgeyle geliyor

Gemini 2.0 Pro (beta) modeli, daha gelişmiş yapay zeka yeteneklerine ihtiyaç duyan kullanıcılar için test edilmeye sunuldu.

Google DeepMind bu modeli, programlama performansı ve karmaşık komutları işleme yeteneği açısından en güçlü modeli olarak tanımlıyor. 2 milyon karakterlik bağlam penceresi ve gelişmiş muhakeme yeteneklerine sahip olup, Google Arama ve kod yürütme gibi harici araçları entegre etme yeteneğine sahiptir.

Google'da harici makine öğrenimi geliştirme uzmanı ve Red Dragon AI'nın kurucu ortağı ve CEO'su olan ve sıklıkla VentureBeat ile iş birliği yapan Sam Witteveen, şunları tartışıyor: YouTube incelemesinde profesyonel model. “Yeni Gemini 2.0 Pro modeli, 1.5 milyon simgeli bir bağlam penceresine sahip, widget'ları, kod yürütmeyi, işlev çağrılarını ve Google Arama ile entegrasyonu destekliyor; yani Pro XNUMX'te sahip olduğumuz her şey, ancak geliştirilmiş.”

Ayrıca Google'ın yapay zeka geliştirmeye yönelik yinelemeli yaklaşımına da işaret etti: "Google'ın stratejisindeki temel farklardan biri, modellerin beta sürümlerini genel kullanıma sunulmadan (GA) önce yayınlaması ve böylece geri bildirimlere dayalı hızlı yinelemelere olanak sağlamasıdır."

Performans kıyaslamaları Gemini 2.0 model ailesinin yeteneklerini daha da ortaya koyuyor. Örneğin Gemini 2.0 Pro, muhakeme, çok dilli anlama ve uzun bağlamlı işleme gibi görevlerde Flash ve Flash-Lite'tan daha iyi performans gösteriyor.

Yapay Zeka Güvenliği ve Gelecekteki Gelişmeler

Google DeepMind, bu güncellemelerin yanı sıra Gemini 2.0 modelleri için yeni güvenlik ve emniyet önlemlerini de uygulamaya koyuyor. Şirket, tepki doğruluğunu artırmak için takviyeli öğrenme tekniklerinden yararlanıyor ve çıktılarını eleştirmek ve iyileştirmek için yapay zekayı kullanıyor. Ayrıca, dolaylı talep enjeksiyonu tehditleri de dahil olmak üzere güvenlik açıklarını tespit etmek için otomatik güvenlik testleri kullanılır.

Google DeepMind, önümüzdeki aylarda metin ötesinde ek yöntemlerin genel kullanıma sunulması beklenirken, Gemini 2.0 model ailesinin yeteneklerini genişletmeyi planlıyor.

Google, bu güncellemelerle yapay zeka geliştirme alanındaki hamlesini güçlendiriyor, verimlilik, uygun fiyat ve gelişmiş sorun çözme için tasarlanmış bir dizi model sunuyor ve DeepSeek'in yükselişine güçlüden çok güçlüye, çok uygun fiyattan biraz daha az pahalıya (ama yine de uygun fiyatlı) kadar uzanan kendi model dizisiyle yanıt veriyor.

Bu, daha önce OpenAI'nin hakim olduğu ve şimdi DeepSeek'in hakim olduğu kurumsal yapay zeka pazarına Google'ın girmesine yardımcı olmaya yetecek mi? Takip etmeye ve sizlere bildirmeye devam edeceğiz!

Patronunuzu etkilemek istiyorsanız VB Daily size yardımcı olacak. Şirketlerin üretken yapay zeka ile neler yaptıklarına dair, kurumsal dönüşümlerden pratik dağıtımlara kadar her türlü içgörüyü size sunuyoruz; böylece yatırım getirinizi en üst düzeye çıkarmak için fikirlerinizi paylaşabilirsiniz.

 

Yoruma kapalı.