Yapay zeka modeli eğitim verileriniz tükenirse ne olur?

Yapay zeka alanında hızlı ilerleme, öncelikle doğru ve geniş ölçekli eğitim verilerinin mevcudiyetine bağlıdır. Yapay zekanın çeşitli sektörlerde kullanımı yaygınlaştıkça, birçok şirket, geliştirdikleri akıllı modellerin kalitesini ve etkinliğini etkileyebilecek, mevcut eğitim verilerinin eksikliğiyle ilgili zorluklarla karşılaşmaya başlıyor. Peki bu eksikliğe rağmen yapay zeka sistemlerini eğitmeye ve geliştirmeye nasıl devam edebiliriz?

İnternet, kullanılabilir verilerle dolu gibi görünebilir, ancak yapay zeka, açık kaynakların çoğunu tüketmiş durumda. Ancak bu, ilerlemenin duracağı anlamına gelmiyor. Veri açığını kapatmak için kullanılabilecek yeni stratejiler var; sentetik veri üretmek, kişiselleştirilmiş veri toplamak, yapılandırılmamış verileri yenilikçi yollarla kullanmak gibi. Bu yazıda, bu yenilikçi çözümleri ve bunların yapay zekanın gelişimini nasıl destekleyebileceğini, kullanıcılarına daha iyi performans ve daha fazla değer sunmaya devam etmesini nasıl sağlayabileceğini inceleyeceğiz.

Yapay zeka modeli eğitim verileriniz tükenirse ne olur?

1. Artı veriler her zaman çevrimiçi olarak eklenir.

Kısaca diyor ki Yapay Zeka Araştırma Enstitüsü Dönem Yapay zekanın eğitileceği yüksek kaliteli veriler 2026 yılına kadar tükenebilir.

Buradaki anahtar kelime “can”dır. İnternete eklenen veri miktarı her yıl artıyor, bu nedenle 2026'dan önce ciddi bir şeyler değişebilir. Ancak bu yine de adil bir tahmin; her iki durumda da yapay zeka sistemlerinde bir noktada iyi veriler tükenecek.

Ancak unutmamalıyız ki, her yıl yaklaşık 147 zettabayt veri çevrimiçi olarak eklenmektedir (... Patlayan Konular). Yalnızca bir zettabayt, 1,000,000,000,000,000,000,000 bit veriye eşittir. Gerçek anlamda bu, 30 milyarın üzerinde 4K film anlamına geliyor (gerçek ama anlaşılması güç). Yapay zekanın inceleyeceği şaşırtıcı miktarda bilgi var.

Ancak yapay zeka, verileri insanlığın üretebileceğinden daha hızlı tüketiyor...

2. Yapay zeka düşük kaliteli verileri unutabilir

Elbette 147 zettabaytlık verinin tamamı iyi veri değildir. Göründüğünden daha fazlası var. Ancak yapay zekanın 2050 yılına kadar düşük kaliteli dilsel verileri de tüketeceği tahmin ediliyor.

rapor edildi reuters Bir zamanlar dünyanın en büyük fotoğraf depolarından biri olan Photobucket, geniş kütüphanesini yapay zeka eğitim şirketlerine lisanslamak için görüşmelerde bulunuyor. Fotoğraflar, DALL-E ve Midjourney gibi modelleri eğitmek için veri içeriyor ancak bu bile 2060 yılına kadar tükenebilir. Burada da daha büyük bir sorun var: Photobucket, Myspace gibi XNUMX'li yılların sosyal ağ platformlarından fotoğraflar içeriyor; bu da onların şu anki kadar yüksek düzeyde olmadığı anlamına geliyor. fotoğrafçılık. Bu, düşük kaliteli verilere yol açar.

Photobucket yalnız değil. Şubat 2024'te Google, Reddit ile bir anlaşma yaparak arama devinin sosyal medya platformunun kullanıcı verilerini yapay zekayı eğitmek için kullanmasına izin verdi. Diğer sosyal ağ platformları da yapay zeka eğitimi amacıyla kullanıcı verileri sağlar; Bazıları bunu Meta'nın Laması gibi dahili yapay zeka modellerini eğitmek için kullanıyor.

Bununla birlikte, düşük kaliteli verilerden bazı bilgiler elde edilebilse de, Microsoft'un yapay zekanın seçici olarak verileri "yok sayması" için bir yol geliştirdiği bildiriliyor. Bu çözüm öncelikle fikri mülkiyet sorunları için kullanılacak ancak bu aynı zamanda araçların düşük kaliteli veri kümelerinden öğrendiklerini unutabileceği anlamına da gelebilir.

Çok seçici olmadan yapay zekaya daha fazla veri besleyebiliriz; Bu yapay zeka sistemleri daha sonra öğrenmek için en yararlı olanı seçip seçebilir.

3. Konuşma tanıma, video ve podcast'lerde bulunan verilerin kilidini açar

Şu ana kadar yapay zeka araçlarına beslenen veriler büyük oranda metinlerden ve daha az oranda da görsellerden oluşuyordu. Bu şüphesiz değişecek ve muhtemelen zaten değişti, çünkü konuşma tanıma yazılımı, mevcut video ve podcast bolluğunun aynı zamanda yapay zekayı da eğitebileceği anlamına gelecektir.

OpenAI'nin otomatik konuşma tanıma (ASR) için açık kaynaklı sinir ağını geliştirdiğini belirtmekte fayda var. Fısıltı680.000 saatlik çok dilli, çok görevli verileri kullanıyor. OpenAI daha sonra YouTube videolarından bir milyon saatten fazla bilgiyi büyük dil modeli GPT-4'e aktardı.

Bu, birçok kaynaktan video ve sesi yazıya dökmek ve bu verileri kendi yapay zeka modelleri aracılığıyla çalıştırmak için konuşma tanımayı kullanan diğer yapay zeka sistemleri için ideal bir modeldir.

وفقًا لل (Statista), YouTube'a her dakika 500 saatten fazla video yükleniyor; bu sayı 2019'dan bu yana oldukça sabit kaldı. Üstelik Dailymotion ve Podbean gibi diğer video ve ses platformlarından bahsetmeye bile gerek yok. Yapay zeka dikkatini bunun gibi yeni veri kümelerine çevirebilirse hâlâ çıkarılması gereken çok büyük miktarda bilgi var.

4. Yapay zeka büyük ölçüde İngilizceye bağlı kaldı

Whisper'dan öğrenebileceğimiz tek şey bu değil. OpenAI, modeli 117000 saatlik İngilizce olmayan ses verilerini kullanarak eğitti. Bu özellikle ilginçtir çünkü birçok yapay zeka sistemi öncelikle İngilizce dili kullanılarak veya diğer kültürlere Batı merceğinden bakılarak eğitilmiştir.

Aslında çoğu araç, yaratıcılarının kültürüne bağlıdır.

Örnek olarak ChatGPT'yi ele alalım. 2022'de piyasaya sürülmesinden kısa bir süre sonra... Jill Walker RettbergNorveç Bergen Üniversitesi'nden dijital kültür profesörü ChatGPT'yi denedi ve şu sonuca vardı:

“ChatGPT, Norveç kültürü hakkında pek bir şey bilmiyor. Daha doğrusu Norveç kültürü hakkında bildiği her şeyin çoğunlukla İngilizce kaynaklardan öğrenildiği varsayılıyor… ChatGPT, Amerikan değerleri ve yasalarıyla açıkça uyumlu. Çoğu durumda bunlar Norveç ve Avrupa değerlerine yakındır, ancak durum her zaman böyle değildir.

Bu nedenle yapay zeka sistemleri, daha fazla çok uluslu insanın kendileriyle etkileşime geçmesini sağlayacak şekilde gelişebilir veya bu tür sistemleri eğitmek için daha çeşitli diller ve kültürler kullanabilir. Şu anda birçok yapay zeka modeli tek bir kitaplıkla sınırlıdır; Dünyanın her yerindeki kütüphanelerin anahtarları verilirse büyüyebilir.

5. Yayın evleri yapay zekanın gelişmesine yardımcı olabilir.

Yayın evleri yapay zekanın geliştirilmesine yardımcı olabilir.

Fikri mülkiyet elbette büyük bir sorun, ancak bazı yayıncılar lisans anlaşmaları yaparak yapay zekanın geliştirilmesine yardımcı olabilir. Bu, araçlara çevrimiçi kaynaklardan alınan düşük kaliteli bilgiler yerine kitaplardan alınan yüksek kaliteli, yani güvenilir veriler vermek anlamına gelir.

Hatta Facebook, Instagram ve Whatsapp'ın sahibi Meta'nın "Beş Büyük" yayınevlerinden biri olan Simon & Schuster'ı satın almayı düşündüğü söyleniyor. Fikir, Meta'nın yapay zekasını eğitmek için şirket tarafından yayınlanan literatürü kullanmaktı. Anlaşma, muhtemelen yazarların önceden izni olmadan fikri mülkiyetleri işleyen şirketin etik gri alanı nedeniyle sonuçsuz kaldı.

Dikkate alınan bir diğer seçenek ise yeni başlıklar için ayrı ayrı lisanslama haklarının satın alınması gibi görünüyor. Bu durum içerik oluşturucular için önemli endişelere yol açmalı, ancak kullanılabilir verilerimiz tükendiğinde yapay zeka araçları geliştirmenin ilginç bir yolu olmaya devam edecek.

6. Gelecek sentetik verilerdir

Diğer tüm çözümler hâlâ sınırlıdır ancak gelecekte yapay zekanın gelişmesine yol açabilecek bir seçenek vardır: sentetik veriler. Konu zaten çok gerçek bir olasılık olarak araştırılıyor.

Peki sentetik veri nedir? Yapay zekanın ürettiği verilerdir; İnsanların veri oluşturması gibi, bu yöntem de yapay zekanın eğitim amaçlı veri oluşturmasını sağlayacak.

Aslında yapay zeka, ikna edici deepfake videolar oluşturabilir. Bu deepfake video yapay zekaya geri gönderilebilir, böylece yapay zeka aslında kurgusal bir senaryodan öğrenebilir. Sonuçta bu, insanların öğrenmesinin ana yollarından biridir: Etrafımızdaki dünyayı anlamak için bir şeyler okuruz veya izleriz.

Yapay zeka sistemleri muhtemelen zaten yapay bilgileri tüketmiş durumda. Deepfake'ler çevrimiçi ortamda yanıltıcı ve yanlış bilgiler yayıyor; bu nedenle yapay zeka sistemleri çevrimiçi içeriği taradığında bazılarının sahte içeriğe maruz kalmış olabileceği anlaşılıyor.

Evet, bunun uğursuz bir tarafı var. Ayrıca yapay zeka sistemlerine zarar verebilir veya onları sınırlayabilir, bu da söz konusu araçların yaptığı hataların güçlenmesine ve yayılmasına neden olabilir. Şirketler sorunu ortadan kaldırmak için çalışmalar yürütüyor; Ancak, "Yapay zekaların birbirlerinden öğrenmesi ve hata yapması" ifadesi birçok bilimkurgu kabus senaryosunun ana temasını oluşturur.

7. Yapay zekayı daha iyi kullanın

Yapay zeka araçları tartışmalıdır. Pek çok dezavantajı var ama eleştirmenler faydalarını görmezden geliyor. Örneğin Denetim ve Danışmanlık Ağı PwC [PDF] Yapay zeka, 15.7 yılına kadar küresel ekonomiye 2030 trilyon dolara kadar katkıda bulunabilir.

Üstelik yapay zeka zaten dünyanın her yerinde kullanılıyor. Muhtemelen bugün bunu şu ya da bu şekilde kullanmışsınızdır, belki de farkına bile varmadan. Artık cin şişeden çıktı, önemli olan onu kesinlikle güvenilir, yüksek kaliteli verilerle eğitmektir, böylece ondan doğru şekilde faydalanabiliriz.

Yapay zekanın artıları ve eksileri var. Kesinlikle bulunması gereken bir denge var.

Yapay zeka araçları, ilerlemelerini ve gelişimlerini baltalama tehdidi oluşturan mevcut eğitim verilerinin eksikliği nedeniyle giderek artan bir zorlukla karşı karşıya kalmaktadır. Bu zorluğun üstesinden gelmek için sentetik veri kullanımı, gözetimsiz öğrenmeden yararlanma ve kurumlar arası veri paylaşımı için iş birliğinin teşvik edilmesi gibi yenilikçi çözümler benimseniyor. Bu çözümler, yeni veri kaynakları sağlamaya yardımcı olarak akıllı modellerin etkin ve verimli bir şekilde iyileştirilmeye ve geliştirilmeye devam etmesini sağlar.