Yapay zeka bizi telefon oyunuyla kandırdı... ve sonuç şok ediciydi!

Yapay zeka destekli görüntü oluşturma modelleri hızla gelişiyor, ancak bunların şüpheli görüntüler üretmesi hâlâ yaygın. Sorunun insan kaynaklı olduğunu varsaymak kolay olduğundan, yapay zekanın yalnızca yapay zeka tarafından oluşturulan komutları kullanarak daha kolay çalışıp çalışmadığını test etmeye karar verdim. ChatGPT ve Gemini gibi yapay zeka ile görsel üretme süreci büyük ölçüde komutların kalitesine ve doğruluğuna bağlıdır. Otomatik talepler kullanıldığında sonuçlar farklı olur mu? İşte bu deneyde bunu keşfedeceğiz.

Pratik kurallar

Birkaç yıl önce yapay zeka görüntü üretim modelleri ortaya çıktığında, görsel medya sektöründe çalışan herkes için bir uyarı olacağını düşünmüştük. Ama öyle olmadı. Son derece gerçekçi görüntüler oluşturma yeteneklerine rağmen, yapay zeka görüntüleri genellikle beklenmedik kategoriye girer, özellikle de daha karmaşık bir şeye ihtiyacınız varsa (örneğin, yapay zekanın el görüntüleri oluşturmakta zorluk çekmesi yaygındır).

Bu sorundan ya yapay zeka modellerinin kendisini ya da insanların yetersizliklerini ve iddiaları yazma konusundaki tutarsız becerilerimizi sorumlu tutabilirsiniz. Sorumlunun kim olduğunu test etmenin doğal bir yolu, oluşturulan istemleri tanıttığınızda görüntü oluşturma modellerinin daha iyi sonuçlar verip vermediğine bakmaktır.

Yapay zeka bize tarihi anlara dair yeni bakış açıları kazandırabilir mi?

Bu hipotezi test etmek için, oluşturmaya çalıştığım nesnenin veya resmin adını kullanmaktan kaçınan bir dizi istem oluşturmak için Gemini'yi kullanacağım. Bu, yapay zekanın talimatları ne kadar iyi "okuduğunu" doğrulamaya yardımcı olacaktır. Elbette, modelin eğitildiği verilerden önemli ölçüde ilham alma olasılığı hâlâ var (özellikle mevcut görüntüleri yeniden oluştururken), ancak gerçek bu, diyor Young.

Görüntü oluşturmak için tercih edeceğim araç, DALL-E 3 tabanlı Bing'in (evet, Bing hala var) Görüntü Oluşturucusu olacak. Modeli test etmek için basit şekillerle başlayacağım, ardından deney ilerledikçe daha karmaşık görüntülere geçeceğim.

Eğer ChatGPT ve benzerlerini kullandıysanız, verdiği cevapların bazılarının ne kadar işe yaramaz olduğunu biliyorsunuzdur; modelin "beta" çalışması sırasında bana sorduğu istemlerde de durum farklı değildi. Bu nedenle, istemlerin tutarlılığını sağlamak adına kendimi 500 karakterle sınırlamaya karar verdim.

Yapay zeka basit şekilleri nasıl işler?

Basit bir kareyle başlayalım. Gemini'den bir kareyi isim vermeden tarif etmesini istedim ve şu cevabı verdi:

Tüm kenar uzunlukları eşit olan dörtgen. Her bir iç açısı tam 90 derecedir. Karşılıklı kenarları paralel olan düzgün dörtgendir.

Açıklamayı DALL-E'ye girdikten sonra şu sonuçları aldım:

Kare, tamam, ama bunun biraz fazla geometrik olduğunu düşünüyorum. Zorluğu artırmanın zamanı gelmişti, bu yüzden yapay zekadan bir küpü detaylandırmasını istedim.

Altı adet birbirine uyumlu yüze sahip üç boyutlu bir şekil. Her yüz, dört eşit kenarı ve dört dik açısı olan düzgün bir dörtgendir. 12 eşit uzunlukta kenarı ve 8 köşesi vardır. Şeklin içindeki tüm açılar dik açıdır.

Sonuçlar muhteşem:

Yapay zeka modellerinin öngörülemezliği hakkında söylediklerimizi hatırlıyor musunuz? İşte DALL-E bir küp yaratmış ama biraz kafası karışmış ve onu bir Rubik Küpü'ne dönüştürmüş. Yapay zeka tam olarak kelimeyi söylemekten tamamen kaçınmasına rağmen, bunu kısmen yanlış anlamış - bunu galaktik bulmaca oyununun popülerliğine bağlayabiliriz.

Yapay zekanın insanlarla fotoğraf çekimine yaklaşımı

Küp durumu, doğru ve "tarafsız" bir tanımlamayla bile yapay zekanın oldukça basit talimatları yanlış yorumlayabileceğini göstermektedir. O halde, Dorothea Lange'nin "Göçmen Anne"si gibi klasik görsellerin yapay zeka tarafından oluşturulan açıklamalarıyla ne kadar iyi performans gösterdiğine bakalım. İşte orijinal görüntü:

Yüzü endişeyle dolu bir kadının kameradan uzaklara baktığı görülüyor. Çocukları onu çevreliyor, yüzleri saklı ya da başka tarafa dönük. Eli yüzüne yakın, yorgunluğunu ve sıkıntısını ifade ediyor. Bu sahne, yoksulluğu ve acıyı çağrıştırıyor. Kadının kıyafetleri bakımsız, genel kompozisyonu ise kasvetli olup, içinde bulunduğu durumun ciddiyetini vurgulamaktadır.

DALL-E'nin ünlü görüntüye dair vizyonu şöyle:

Çok yakın! Ancak bu tamamen doğru değil, çünkü DALL-E açıkça "ifadesini görmezden geldiÇocukları tarafından çevrelenmiş, yüzleri gizlenmiş veya başka tarafa dönük.“Anne”nin elini yüzüne götürmesi yerine, çocuklardan biri bu rolü üstlendi.

Daha karmaşık bir şey deneyelim. Ünlü "Gökdelenin Tepesinde Öğle Yemeği" fotoğrafını görmüş olabilirsiniz:

“On bir adam, yüksekte bir çelik kirişin üzerinde oturmuş, öğle yemeğini yiyor, bacakları sallanıyor. Kiriş, geniş bir şehrin üzerinde asılı duruyor. Adamlar, aşırı yüksekliğe rağmen rahat görünüyorlar. İş kıyafetleri giymişler ve sahne, yüksekliği vurgulayan biraz daha alçak bir açıdan çekilmiş.”

Bu muhteşem iddia muhteşem sonuçlar doğurmuştur:

Yapay zeka tarafından oluşturulan bir görüntünün klasik işaretlerini (aynı saksılar ve "kopyalanıp yapıştırılmış" nesneler) görmezden geldiğinizde, kompozisyon ve genel his açısından neredeyse şaşırtıcı hale geliyor. Şaşırtıcı olmayan bir şekilde, bu görüntü yalnızca son derece yaygın olmakla kalmıyor, aynı zamanda kamuya açık bir alan, bu yüzden DALL-E'nin eğitim sırasında içeriğini kurtardığına dair gizli bir şüphem var.

Yapay zeka karmaşık görselleri işleyebilir mi?

Bu deneyin son "testi" olduğundan artık ciddileşmenin zamanı geldi! Yapay zeka, insan görüntülerini işlemede iyi olsa da karmaşık ve belirsiz sahnelerle karşılaştığında çoğu zaman başarısız oluyor. Peki Apollo 8'in Ay yörüngesinden çektiği meşhur "Dünya'nın Doğuşu" fotoğrafına ne demeli?

“Kısmen aydınlatılmış bir küre karanlık uzayda asılı duruyor. Daha küçük, gri bir küre ufkunun üzerinde yükseliyor. Daha büyük küre, su ve bulutları çağrıştıran mavi ve beyaz noktalar gösteriyor. İki küre ve siyahlık arasındaki keskin kontrast, daha küçük, yükselen kürenin kırılganlığını ve izolasyonunu vurguluyor.”

İkizler (ya da daha doğrusu top) bu tanımlamada sınıfta kalıyor. Çok soyut olduğu için iddiaya "ay yörüngesine yakın bir yerden çekilmiş" ifadesini ekledim ama pek işe yaramadı:

Harika, progresif rock albüm kapağı ama Earthrise'la hiçbir alakası yok. Deneyi bitirmek için şimdiye kadar gördüğüm en gizemli görseli, Edward Weston'ın endüstriyel şaheseri "Armco Steel"i seçtim:

“Çerçeveyi bir dizi yuvarlak endüstriyel metal tank dolduruyor. Şekilleri yumuşak ve şişkin, tekrarlayan bir desen oluşturuyor. Işık yüzeylerden yansıyor, kavisli formlarını vurguluyor ve hacim hissi yaratıyor. Kompozisyon, endüstriyel nesnelerin soyut yönlerine odaklanıyor, işlevden ziyade form ve dokuyu vurguluyor. Sahne, ışık ve gölgeye güçlü bir vurgu yaparak basit ve modern.”

Bu iyi bir giriş gibi görünüyor, bakalım Dall-E bizimle aynı fikirde mi:

Bilimkurgu hissini takdir ediyorum ama orijinaline hiç benzemiyor. Deneyin tamamen başarısızlıkla sonuçlanmasını istemediğim için girdinin sonuna "1920'ler fotoğrafı" ifadesini ekleyerek makineye yardımcı olmaya karar verdim.

Benim düşüncem, bu özel terimin, bahsettiğim resmi netleştirmeye yardımcı olabileceği yönündeydi. Ne yazık ki Dall-E beni yine hayal kırıklığına uğrattı ve yine bir progresif rock albüm kapağı yaptı:

Bu deneyin sonuçları ilginçti ve çıkarabileceğimiz sonuç, yapay zekanın görüntü üretiminin, özellikle daha soyut kavramlar söz konusu olduğunda, oldukça öngörülemez olduğudur. Girdinin yapay zeka tarafından oluşturulmuş ve doğru olması veya insan tarafından oluşturulmuş ve kusurlu olması önemli değil; sonuçlar rastgele görünüyor.

Bu nedenle, bir dahaki sefere kendinizi ve girdi stilinizi suçlamaya çalıştığınızda, iki cihaz birbirleriyle iletişim halinde olsa bile sonuçların büyük ihtimalle oldukça benzer olacağını unutmayın.