Gemini'nin yeni yerel görüntü oluşturma özelliğini denedim ve kesinlikle harika.

Özet:

Google, yeni Gemini 2.0 Flash beta'yı kullanarak yerel görüntü oluşturma ve düzenleme özelliğini başlattı.
Bu özellik artık AI Studio'da ücretsiz olarak sunuluyor ve basit metin komutlarını kullanarak bir dizi koordineli görüntü oluşturabilir ve düzenleyebilirsiniz.
Öğeleri kaldırabilir ve ekleyebilir, metin ekleyebilir, resimleri renklendirebilir, görsel bir hikaye oluşturabilir ve çok daha fazlasını yapabilirsiniz.

Yapay zekada "doğal olarak çok modlu" terimini bir yıldan fazla bir süredir duyuyoruz, ancak şirketler şimdiye kadar yapay zeka modellerinin çok modlu potansiyelini tam olarak ortaya çıkarmakta yavaş davrandılar. Google, en son prototipi olan “Gemini 2.0 Flash Experimental”ı nihayet yayınladı… Orijinal görseller üretme ve düzenleme yeteneğiAh.

Peki, imaj oluşturmanın önemi nedir diye merak ediyor olabilirsiniz. Yapay zeka görüntü oluşturma özelliği, ChatGPT gibi tüm büyük yapay zeka sohbet robotlarıyla bir süredir kullanılabiliyor. ChatGPT veya Gemini'de AI görüntüleri ürettiğimizde, bu görüntüler Dall-E 3 veya Imagen 3 gibi özel bir difüzyon tabanlı modele yönlendirilir. Bu modeller görüntüler üzerinde eğitilir ve yalnızca görüntü üretmek için tasarlanmıştır; Ana yapay zeka modelinin bir parçası değil, bir uzantısıdır.

Ancak dilsel vizyon modelleri gibi İkizler burcu Doğal olarak multimedyadır, yani hem metni hem de görselleri kendiliğinden anlayabilir, üretebilir ve değiştirebilir. Şu ana kadar hiçbir teknoloji şirketi bu özelliği kullanıcıların kullanımına sunmadı. OpenAI, 4 yılında GPT-2024o ile kendi özgün görüntü üretme özelliğini gösterdi ancak yine yayınlanmadı.

Orijinal görüntü oluşturma özelliğiyle şunları elde edeceksiniz: Daha iyi koordinasyon Çok-modlu modellerin farklı medyalardan oluşan büyük bir veri kümesi üzerinde eğitildiği yer. Sonuç olarak bu modeller kavramları daha iyi anlıyor ve dünyaya dair daha geniş bir bilgiye sahip oluyorlar.

Görüntü oluşturmanın yanı sıra, basit metin komutlarını kullanarak görüntüleri sorunsuz bir şekilde düzenleyebilirsiniz. Örneğin, bir görüntü yükleyip modelden görüntüye güneş gözlüğü eklemesini, kalın yazı eklemesini, nesneleri kaldırmasını ve daha fazlasını yapmasını isteyebilirsiniz. Her yeni komutla görüntünün tamamını yeniden oluşturan difüzyon modellerinin aksine, yerel multimedya modelleri birden fazla düzenlemede tutarlılığı korur.

Gemini 2.0 Flash demosunu kullanarak görseller oluşturun

Orijinal görüntü oluşturma özelliği şu anda genel kullanıcılara açık değil. Yerel görüntü oluşturma özelliğine sahip Gemini 2.0 Flash demosu yalnızca Google'ın AI Studio platformunda mevcuttur (ziyaret) ücretsiz.

Modelin AI Studio'da ön izlemesi yapıldıktan sonra yakın gelecekte herkesin kullanımına sunulması için Gemini'de yayınlanması planlanıyor. Ancak yeni Gemini modelini görüntü oluşturma özelliğiyle denedim ve çok heyecan verici bir deneyimdi.

Öncelikle Gemini'nin görüntü oluşturma yeteneğinin tutarlılığını göstermek için görsel bir rehberle başladım. Gemini'den omlet yapımına dair görsel bir rehber oluşturmasını ve sürecin her aşaması için bir fotoğraf oluşturmasını istedim.

Gördüğünüz gibi sonuçlar, herhangi bir hata olmaksızın, tüm görüntülerde oldukça tutarlı. Hatta kase bile ikinci resimdekiyle aynı. Son olarak 1024 x 680 çözünürlükte görselleri indirebilirsiniz. Bu şekilde istediğiniz her şeye dair görsel bir rehber oluşturabilirsiniz.

Daha sonra Gemini'den estetik bir masa görüntüsü oluşturmasını ve ardından masayı merkez kamera açısından görüntülemesini istedim. Mükemmel bir iş çıkardı. Daha sonra Gemini'den masaya bir de PlayStation eklemesini ve yakından bakmasını istedim. İkizler bir kez daha başardı. Aşağıda da görebileceğiniz üzere AI modelinin arkasında, aynada PS5'in yansıması da yer alıyor.

Orijinal fotoğraf düzenlemesini göstermek için galerimden bir fotoğraf yükledim ve Gemini 2.0'dan şarap kadehini masadan kaldırmasını istedim. Daha sonra Gemini'den pizzaya mantar eklemesini istedim ve harika bir iş çıkardı. Daha sonra Gemini'den kruvasan eklemesini istedim ve işte karşınızda, Gemini'nin multimedya yetenekleri sayesinde tüm özellikleriyle yapay zeka fotoğraf düzenleme.

Daha sonra kendi fotoğrafımı yükledim, Gemini'den güneş gözlüğü eklemesini istedim ve ardından tişörtüme "Beebom" yazısını ekledim. İkisi de çok iyi icra edilmiş.

Son olarak Gemini'den bir resmi renklendirmesini istedim ve o da bunu çok iyi yaptı. Yani resim eskisinden daha güzel, hiçbir garip hata, bozulma, resmin herhangi bir parçasının eksikliği yok.

Gemini'nin yeni multimedya yeteneklerini deneyimleyebileceğiniz birçok kullanım durumu var. Google, yerel görüntü oluşturma ve düzenleme konusunda harika bir iş çıkardı ve önümüzdeki haftalarda sınırlarını test etmek için onu daha kapsamlı bir şekilde kullanmayı planlıyorum.

Video oluşturma için Veo 2'yi ve özel görüntü oluşturma için Imagen 3'ü piyasaya süren Google, birçok alanda OpenAI'yi geride bırakmış görünüyor; Sadece yapay zeka metin üretimi alanında değil. Dolayısıyla OpenAI'ın ChatGPT ile liderliği geri kazanmak için neler yapacağını görmek ilginç olacak.