Kendiniz görün: ChatGPT'nin yeni görüntü oluşturma yetenekleri muhteşem

OpenAI, ChatGPT'nin görüntü oluşturma yeteneklerine yönelik, gerçekliği yeniden tanımlayan akıl almaz bir güncelleme yayınladı. Bu gelişme, yapay zeka ile görüntü üretimi alanında niteliksel bir sıçramayı temsil ediyor.

Yeni modelin kaç GPU saati kullandığı, model boyutları veya sayılarla zamanınızı boşa harcamayacağım. Bu güncellemenin neler yapabileceğini ve önceki DALL-E modeliyle nasıl karşılaştırıldığını size göstereceğim.

7. eller ve parmaklar

Gitarda E minör akorunu çalan bir kişinin yakın çekimi, parmakları sığ alan derinliğiyle tellere basıyor.

Yapay zeka ile görüntü üretme teknolojisi ilk popüler olduğunda aklımızı başımızdan almıştı. Sonra... yakından baktık. Yapay zeka görüntüsünün ayırt edici özelliği el ve parmakların garip anatomisi. Peki, modelleri test etmenin en iyi yolu onlardan bir gitar telinin fotoğrafını çekmelerini istemek olabilir mi?

En iyisini sona saklamak için önce orijinal DALL-E modeline, sonra ChatGPT 4o modeline entegre edilmiş yeni görüntü oluşturucuya sordum.

Akustik gitarda E minör akorunu çalan bir kişinin elinin yakın çekimi

Yukarıdaki görsel DALL-E'nin ürettiği bir üründür. DALL-E'nin kusurlarına rağmen, burada parmakları ve genel anatomiyi iyi bir şekilde ele aldı. Ama ipin kendisi öyle değil. Mi minör çalmak için el pozisyonu perde tahtasında çok yukarıdadır. Biraz yakınlaştırdığınızda gitarın yediden fazla teli olduğunu fark edeceksiniz. Teller arasındaki boşluklar da düzensizdir.

Bunları aklımızda tutarak ChatGPT 4o'ya geçelim.

Akustik gitarda E minör akorunu çalan bir kişinin elinin yakın çekimi

Şaka yaptığımı ve bunun gitar çalarken çekilmiş eski bir fotoğraf olduğunu söyleyebilirdim. ChatGPT 4o bu kadar iyi mi. Altı tel, eşit aralıklı ve akor aslında Mi minör. Etkilendim.

6. Tarihsel figürler

Albert Einstein, Central Park'ta dondurma yiyor, üzerinde rahat bir gömlek ve pantolon askısı var.

Farklı şeylerin resimlerini üretmeyi denedikten sonra, şimdi de tarihi figürlerin resimlerini üretmeyi denemeye karar verdik ve hem onlar bundan rahatsız olmayacaklardı hem de onları modern bir ortamda görmek eğlenceli olacaktı. Einstein'ın bir görüntüsünü oluşturmak için DALL-E 2 ve ChatGPT 4'ü deneyerek başlayalım.

Central Park'ta dondurma yiyen Einstein'a benzeyen bir adam

DALL-E 2'nin sonucu hayal kırıklığı oldu, çünkü önceden bana Einstein'ın kendi resmini kullanamayacağı ve "ona çok benzeyen" birinin resmini kullanacağı konusunda uyarıda bulunmuştu. DALL-E 2'nin görselleri gerçekçi, çizgi filmvari bir tarza sahip, bu da burada açıkça görülüyor. Arka plandaki San Remo binası sanki bu fotoğrafın Central Park'ta çekildiğini düşündürüyor ama buradaki tek ayrıntı bu.

Şimdi ChatGPT 4o'ya geçelim.

Central Park'ta dondurma yiyen Einstein'a benzeyen bir adam

Bu fotoğrafa siyah beyaz filtre uygulayarak bunun gerçek bir vintage fotoğraf olduğuna sizi ikna edebilirim. Koni üzerindeki krema mükemmel bir şekilde kremsi görünüyor, Einstein kendine özgü sakin tarzıyla karşımıza çıkıyor ve San Remo binası hala arka planda mevcut. Her şey mükemmel görünüyor. ChatGPT 4o bu görüntüde harika bir iş çıkarmış.

5. Kurgusal karakterler

Glasgow'daki George Meydanı'nda Lord Sith'e benzeyen bir figür, arka planda hafif yağmur ve trafik ışıklarının olduğu bir ortamda taksiye biniyor.

Şimdiye kadar ChatGPT'nin tarihi figürleri çizmede ne kadar usta olduğunu gördük. Yüzler ve insanlar hâlâ yapay zekanın yeteneklerini test etmenin en iyi yolları olduğundan, Plus'ı deneyelim.

Glasgow'daki George Meydanı'nda duran, Sith Lord'a benzeyen uzun boylu, gizemli bir figür

Telif hakkı iddiasıyla karşılaşmadan chatbot'un benimle işbirliği yapmasını sağlamak için "benzer" kelimesini kullandım. DALL-E sonucu iyiydi. Karakter gerçekten bir Sith Lord'unu andırıyor ve geri kalan unsurlar da oldukça gerçekçi.

Çok fazla karikatürize edilmiş bir yanı yok ama gerçekçi de görünmüyor. Gerçekçilik mi istiyorsunuz? ChatGPT 4o'nun aynı komutla ne ürettiğine bakın:

Glasgow'da duran Sith Lord'a benzeyen uzun boylu, gizemli bir figür

Atmosferi, aydınlatmayı, sisi ve Sith Lord'un kasvetli varlığını seviyorum. Her şey var. Tek sorun, Karanlık Lord'un sokakta durması ve kaldırıma bakarak taksi çağırmasıydı. Ayrıca taksi tabelasında “TAXL” yazıyor.

Gelecek kurgusundan tarihi kurguya geçelim. Şöyle bir şey:

Geralt of Rivia'ya benzeyen bir karakter, modern bir süpermarkette alışveriş yapıyor, alışveriş arabasını itiyor ve konserve yiyeceklere kaşlarını çatarak bakıyor.

Yüzünde bir yara izi olan, bir fantezi canavar avcısını andıran, sert yapılı, beyaz saçlı bir adam, modern bir süpermarkette alışveriş yapıyor

Hiç fena değil. Resimde hala o yapay karikatürize hava var ve tahıl kutularının üzerindeki yazılar da tahmin edilebileceği gibi tamamen anlaşılmaz.

ChatGPT 4o, telif hakkı nedeniyle başlangıçta iddiayı reddetti; ancak "benzer" ifadesini "benzer" ile değiştirdiğimde bu iddiayı reddetti. Bakmak:

Yüzünde bir yara izi olan, bir fantezi canavar avcısını andıran, sert yapılı, beyaz saçlı bir adam, modern bir süpermarkette alışveriş yapıyor

Konuşamıyorum. Çoğu insan gibi, ChatGPT'nin Geralt yorumu da temelde Henry Cavill'inki, video oyunundaki versiyonu değil; ama bunu başarmış. Kaş çatma yerinde ve sahne normal görünüyor.

Bu, garip bir reklam setinden alınmış bir sahne gibi de görülebilir. Ve evet, kitaplar okudum. The Witcher Dizi olmadan önce.

4. çizgi film

Uçan bir geminin güvertesinde uzun kırmızı bir palto ve biyonik bir kol giyen, gülen bir korsan kaptanın yer aldığı çizgi film. Şeffaf arka plan.

OpenAI'nin görüntü üretimi sadece gerçekçilikle ilgili değil. DALL-E her zaman girdiden bağımsız olarak bir miktar yumuşatma ekleme eğiliminde olsa da, her iki modeli de tam karikatür moduna sokmaya karar verdim. İleri yapay zekâ tekniklerinin kullanımıyla çizgi filmlerin kalitesinin artırılmasına odaklanıldı.

DALL-E'nin uçan bir geminin güvertesinde duran çizgi film tarzı bir korsan kaptanı

Aslında DALL·E burada iyi bir iş çıkardı; şeffaf bir arka plan talebini bile anladı. biraz. Elde ettiğimiz şey, genellikle şeffaflık anlamına gelen klasik gri ve beyaz dama tahtası desenidir... ancak burada bu desen, görselle harmanlanmıştır. Yani hiç şeffaf değil.

Bilgisayar korsanının yapay zeka tarafından üretilen biyolojik elinin dört parmağı, elektronik elinin ise beş parmağı olması da ironik. Belki de yanlış kolu kromla kapladı?

Uçan bir geminin güvertesinde duran çizgi film tarzı bir korsan kaptan

ChatGPT 4o daha net ve amaçlı görünüyor. Renklendirme stili değişir - daha iyi olup olmadığı kişisel bir meseledir - ama açıkça bir sanatçının bunu bu şekilde çizdiği anlaşılıyor. ChatGPT'nin grafikleri yüksek kalitede ve detaylıdır.

Arka plan da zaten şeffaf. Bunu bir tişörte koyabilir, yazdırabilir, hatta anında WhatsApp çıkartmasına bile dönüştürebilirsiniz.

3. Aynalar ve yansımalar

Tezgahın üzerinde diş fırçası ve tıraş bıçağı bulunan modern banyo lavabosu, hem aynada hem de gerçekte görülebiliyor; ışıklandırma yumuşak ve eşit. Yapay zeka tarafından oluşturulan görüntülerdeki yansımaların doğruluğu devam eden bir sorundur.

Aynalar görüntüleri yansıtır ve yansımaların doğal görünmesi için mekansal mantığa ihtiyaç vardır. DALL-E'nin rastlayacağını bildiğim bir giriş yaptım. Yapay zekanın karşılaştığı en büyük zorluklardan biri gerçekçi ve doğru yansımalara sahip görüntüler üretmektir.

Şık bir tasarıma ve temiz bir tezgaha sahip modern bir banyo lavabosu

Beklendiği gibi. Aynada musluğun yansıması olmaya çalışan bir şey var ama çok uzun. Diş fırçası lavabonun içerisinde yüzer ve herhangi bir yansıma yapmaz. DALL-E bu örnek için çok emek vermiş.

Şık bir tasarıma ve temiz bir tezgaha sahip modern bir banyo lavabosu

Yeni model, görüntüyü gerçek bir fotoğraf gibi gerçekçi gösterme konusunda çok daha iyi bir iş çıkarıyor. Musluk yansıması biraz çarpık ama kabul edilebilir. Sonra, yansıması olan ama fiziksel dünyada var olmayan diş fırçası var; tıpkı tersten vampir gibi.

Burada net bir kazanan yok. Yapay zeka sonuçları tutarsızdı, bu yüzden ikisine de daha iddialı bir şeyle bir şans daha verdim:

Güneş ışığıyla aydınlanan yatak odasındaki boy aynasının önünde duran bir kadın, kıyafetleri ve duruşuyla, arkasındaki pencereden gelen yansımayla kusursuz bir şekilde yansıtılmış.

Güneşli bir yatak odasında boy aynasının önünde duran bir kadın

…Bu örneği analizle onurlandırmak bile istemiyorum. Arkadaşlar, eğer DALL-E'yi kötü göstermek istiyorsanız, girişinize "ayna" kelimesini eklemeniz yeterli. Hadi devam edelim.

Güneşli bir yatak odasında boy aynasının önünde duran bir kadın-1

Beklendiği gibi ChatGPT 4o daha gerçekçi görünüyor – ama bu sefer biraz gerçeküstü olabilir mi? Kadının duruşu ve kıyafetleri, sanki XNUMX boyutlu Photoshop etkisi yaratılmış gibi, kısmen yansıtılmış. Yansıma açıları da yanlış. Yapay zeka hala mekansal mantığı kavrayamıyor. XNUMX boyutlu uzayı ve yansımaları anlamak yapay zeka için büyük bir zorluk gibi görünüyor.

2. Arabalar ve sokaklar

2006 model bir Ford GT ve bir Peugeot 206, New York'un Wall Street semtinde öğle vakti kırmızı ışıkta geçiyor.

Ben bir araba tutkunuyum. Yapay zeka görüntü oluşturma yazılımları ilk çıktığında denediğim ilk şeylerden biri arabaların görüntülerini oluşturmaktı. O zamanlar sonuçlar iyi değildi ama yeni model çıkınca tekrar denemek zorunda kaldım.

2006 model Ford GT, Peugeot 206'nın yanında kırmızı ışıkta durdu

İşte DALL-E, giderek daha rahatsız edici hale gelen karikatürize estetiğini bir kez daha sergiliyor. Peugeot kaldırımda, istediğim trafik ışıkları binalara bakıyor ve plaka numaraları da anlaşılmıyor.

2006 model Ford GT, Peugeot 206'nın yanında kırmızı ışıkta durdu

ChatGPT 4o sonuçları çok daha iyi. Arabalar doğru şekilde resmedilmiş, hatta Peugeot jant kapakları bile oldukça gerçekçi ve döneme uygun. Bu tür ayrıntılar tesadüf değil. Daha da iyisi:

2006 model Ford GT, Peugeot 206'nın yanında kırmızı ışıkta durdu

Aslında bu resmi telefonumun duvar kağıdı olarak kullanabilirim. Işık, kompozisyon, yansımalar - her şey mükemmel görünüyor. Sokaktaki tek tük boşluklar hariç, gerçek bir fotoğraf sayılabilirdi.

1. Metinler ve mesajlar

Eski bir kağıda el yazısıyla yazılmış bir mektup, yanında bir dolma kalem ve mürekkep şişesi.

Son olarak her görüntü oluşturucunun zayıf noktasını hedefliyoruz. Yapay zeka destekli görüntü oluşturucuların çoğu doğru metni üretmekte zorluk çekiyor. Artık önceki örneklerde DALL-E'den yeterince anlamsız söz gördüğünüz için ne demek istediğimi anlamışsınızdır. Bu teknolojilerin geliştiricileri için görsellerden metin üretmek büyük bir zorluktur.

Daha ilgi çekici ve tutarlı olması için, mektubun Warcraft III'te Kral Terenas'ın Arthas'a yazdığı mektubun metnini içermesi gerektiğini ekledim.

Hafif sararmış parşömen kağıdına yazılmış el yazısı bir mektubun yakın çekim sahnesi

DALL-E metinle ilgili en iyi yaptığı şeyi yaptı: Onu belirsiz, anlaşılmaz bir metne dönüştürdü. Birkaç kelimeyi doğru yazmayı başarmış, genel atmosfer de güzel görünüyor; dolma kalem ve mürekkep şişesi de güzel görünüyor. Ancak metin üretmenin doğruluğu hala sınırlıdır.

Hafif sararmış parşömen kağıdına yazılmış el yazısı bir mektubun yakın çekim sahnesi

ChatGPT 4o bunu başarıyor - her kelimeyi, anlaşılır el yazısıyla. ideal. DALL-E ile karşılaştırıldığında bu çok büyük bir sıçrama. Tebrikler OpenAI. Bu gelişme, yapay zeka teknolojilerinin metin üretiminde ne kadar ilerlediğini gösteriyor.

Yapay zeka görüntü oluşturma teknolojileri uzun bir yol kat etti ve bu da görülüyor. ChatGPT 4o, aydınlatma, doku ve bağlam konusunda gerçekten başarılı olan ilk model gibi görünüyor. Bu, yapay zeka görüntü üretimi alanında önemli bir ilerlemeyi temsil ediyor.

Bu noktada geriye kalan tek gerçek soru şu: ChatGPT'nin korumaları ne kadar güçlü? Telif hakkı kısıtlamalarını kolayca aştım. Birisinin ChatGPT'yi jailbreak edip bu inanılmaz yetenekli modeli kullanarak istediği içeriği oluşturmaya başlaması ne kadar zaman alacak? Bu yetenek, yapay zeka teknolojilerinin sorumlu bir şekilde kullanılması konusunda soru işaretlerini gündeme getiriyor.

Yoruma kapalı.