Nvidia, yapay zeka görüntü üretiminin en büyük zorluklarının çözümüne yardımcı oluyor.

Yapay zekada, özellikle medya oluşturma gibi görevlerde yüksek güç ve hesaplama gereksinimi temel bir sorundur. Mobil telefonlarda bu görevler yerel olarak çalıştırıldığında, yalnızca güçlü işlemcilere sahip birkaç pahalı cihaz özellik setini çalıştırabilir. Bulutta büyük ölçekte uygulandığında bile masraflı bir süreçtir.

Nvidia, MIT ve Tsinghua Üniversitesi ile ortaklık kurarak bu zorluğun üstesinden sessizce gelmiş olabilir. Ekip, hibrit bir yapay zeka görüntü oluşturma aracı yarattı HART (Hybrid Auto Transformer) temelde en yaygın kullanılan iki yapay zeka görüntü üretim tekniğini birleştiriyor. Sonuç, çok daha düşük hesaplama gereksinimlerine sahip, çok hızlı bir araçtır.

Size ne kadar hızlı olduğunu gösterebilmek için kendisinden bas gitar çalan bir papağan resmi yapmasını istedim. Bir saniye kadar sonra bir sonraki görüntüye ulaştı. İlerleme çubuğunu takip etmekte bile zorlandım. Aynı girdiyi bir formla kullandığımda Google Görseli 3 Gemini'de 9 Mbps internet bağlantısında bu süre yaklaşık 10-200 saniye sürdü.

Yapay zeka kullanılarak görüntü üretiminde büyük sıçrama

Yapay zeka görüntüleri ilgi görmeye başladığında, tüm bunların arkasındaki itici güç difüzyon teknolojisiydi ve OpenAI'nin Dall-E görüntü oluşturucusu, Google'ın Imagen ve Stable Diffusion gibi ürünlere güç veriyordu. Bu yöntemle yüksek çözünürlüklü ve detaylı görüntüler elde edilir. Ancak yapay zeka görüntülerinin oluşturulması için birden fazla adım gerekiyor, bu da süreci yavaşlatıyor ve hesaplama açısından maliyetli hale getiriyor.

Son zamanlarda popülerlik kazanan ikinci yaklaşım ise, chatbot'lara benzer şekilde çalışan ve piksel tahmin teknolojisini kullanarak görüntü üreten kendi kendine gerileyen modellerdir. Bu yöntem daha hızlıdır, ancak yapay zeka görüntü oluşturmada hataya daha açıktır.

MIT'deki bir ekip her iki yöntemi HART adı verilen tek bir pakette birleştirdi. Bu teknik, sıkıştırılmış görüntü elemanlarını ayrık belirteçler olarak tahmin etmek için otoregresif bir modele dayanırken, küçük bir difüzyon modeli kalite kaybını telafi etmek için geri kalanıyla ilgilenir. Bu yaklaşım, kullanılan adım sayısını yirmiden fazla adımdan sekize düşürüyor.

HART'ın arkasındaki uzmanlar, bu teknolojinin "en son teknoloji difüzyon modellerinin kalitesine eşit veya daha üstün görüntüler ürettiğini, ancak bunu yaklaşık dokuz kat daha hızlı yaptığını" iddia ediyor. HART, 700 milyon parametre aralığına sahip bir otoregresif model ile 37 milyon parametreyi işleyebilen küçük bir difüzyon modelini bir araya getiriyor.

Bilgisayar maliyeti krizinin çözümü

İlginçtir ki, bu hibrit HART aracı, 2 milyar parametre kapasitesine sahip, son teknoloji modeller kadar iyi görüntüler üretebildi. En önemlisi, HART bu başarıyı, bilgi işlem kaynaklarını %31 oranında azaltarak dokuz kat daha hızlı görüntü üretimiyle elde etti.

Ekip, düşük hesaplama gerektiren yaklaşımın HART'ın telefonlarda ve dizüstü bilgisayarlarda yerel olarak çalışmasını sağladığını ve bunun da büyük bir başarı olduğunu belirtiyor. Şu ana kadar ChatGPT ve Gemini gibi popüler pazar ürünleri, hesaplama bulut sunucularında yapıldığından görüntü üretmek için internet bağlantısı gerektiriyordu.

Test videosunda ekip, bunu Intel Core serisi işlemci ve Nvidia GeForce RTX ekran kartına sahip bir MSI dizüstü bilgisayarda yerel olarak çalışırken gösterdi. Bu, piyasadaki çoğu oyun dizüstü bilgisayarında bulabileceğiniz, üstelik çok para harcamanıza gerek kalmayan bir kombinasyon.

HART, 1 x 1 piksel çözünürlükte 1024:1024 en boy oranlı görüntüler üretebilmektedir. Bu görüntülerdeki detay düzeyi, sahnenin stil çeşitliliği ve doğruluğu etkileyici. Ekip, testler sırasında hibrit yapay zeka aracının üç ila altı kat daha hızlı olduğunu ve yedi kattan fazla daha yüksek üretkenlik sağladığını gözlemledi.

Özellikle HART'ın görüntü yeteneklerinin dil modelleriyle birleştirilmesi durumunda gelecekteki olasılıklar heyecan vericidir. MIT ekibi, "Gelecekte, bir mobilya parçasını bir araya getirmek için gereken ara adımları göstermesi istenerek, birleşik bir görme ve dil üretme modeliyle etkileşim kurulabilir" diyor.

Bu fikri halihazırda araştırıyorlar ve hatta HART'ın ses ve görüntü üretimine yönelik yaklaşımını test etmeyi planlıyorlar. Bunu deneyebilirsin Web Kontrol Paneli MİT.

Bazı dezavantajlar

Kalite tartışmasına girmeden önce HART’ın henüz erken aşamalarında olan bir araştırma projesi olduğunu belirtmek gerekir. Teknik olarak, çıkarım ve eğitim süreçlerinde artan ek yük gibi ekip tarafından vurgulanan bazı engeller var. Yakın gelecekte bu programın önemli gelişmelere sahne olması bekleniyor.

Bu zorluklar, buradaki büyük resmin içinde önemsiz oldukları için çözülebilir veya göz ardı edilebilir. Ayrıca, HART'ın hesaplama verimliliği, hız ve gecikme açısından sunduğu muazzam faydalar göz önüne alındığında, bu zorluklar herhangi bir önemli performans sorununa yol açmadan devam edebilir.

HART ile metin komutlarını kullanarak yaptığım kısa deneyimim sırasında, görüntülerin ne kadar hızlı oluşturulduğuna hayret ettim. Ücretsiz yazılımın bir görseli oluşturmasının iki saniyeden fazla sürdüğü bir senaryoyla hiç karşılaşmadım. Üç paragrafa (yaklaşık 200 kelime) yayılan istemlerle bile HART, açıklamayla mükemmel şekilde eşleşen görseller üretebildi.

Açıklamanın doğruluğunun yanı sıra resimlerde de çok fazla detay vardı. Ancak HART, tipik yapay zeka görüntü oluşturma yazılımlarının dezavantajlarına da sahiptir. Yemek yeme, karakter uyumu, perspektif yakalama gibi temel figürleri ve çizimleri oluşturmada zorluk çekiyor.

İnsan bağlamındaki gerçekçilik, açıkça kusurlar fark ettiğim bir alandır. Program bazı durumlarda, örneğin bir yüzüğü kolyeyle karıştırmak gibi temel şeyleri yanlış anlıyordu. Ama genel olarak bakıldığında bu hatalar azdı ve bekleniyordu. Birçok yapay zeka aracı, bir süredir piyasada olmalarına rağmen bunu hâlâ düzgün bir şekilde yapamıyor.

Genel olarak HART'ın muazzam potansiyeli beni çok heyecanlandırıyor. MIT ve Nvidia'nın bundan bir ürün yaratıp yaratmayacağını veya hibrit yapay zeka görüntü oluşturma yaklaşımını mevcut bir ürüne uyarlayıp uyarlamayacağını görmek ilginç olacak. Her iki durumda da, çok umut verici bir geleceğin işareti.