AI M2 Kulaklıklar: Birden Fazla Konuşmacı İçin Anında Çeviri

 

Kablosuz kulaklıklar her zaman sunmuştur Pixel Buds Google Özelliğinden Anında çeviri inanılmaz. Son birkaç yıldır Timkettle gibi markalar, iş müşterilerine yönelik benzer kulaklıklar sunuyor. Ancak bu çözümlerin tümü, çeviri için aynı anda yalnızca bir ses akışını işleyebilir.

Washington Üniversitesi'ndeki (UW) araştırmacılar, aynı anda birden fazla konuşmacının sesini çevirebilen, yapay zeka destekli kulaklıklar şeklinde gerçekten dikkat çekici bir şey geliştirdiler. Bunu, kalabalık bir barda oturan ve etrafındaki farklı dilleri konuşan insanların konuşmalarını anlayabilen çok dilli bir kişi olarak düşünün. Bu yenilik, eş zamanlı çeviri teknolojisinde önemli bir sıçramayı temsil ediyor.

Ekip, inovasyonlarına "Uzamsal Konuşma Çevirisi" adını veriyor ve bunu iki kulaklı kulaklıklar kullanarak başarıyor. Bilmeyenler için, binaural ses teknolojisi ses efektlerini insan kulağının doğal olarak duyduğu şekilde simüle etmeye çalışır. Bunu kaydetmek için, bir mankenin kafasına, her iki tarafta insan kulakları kadar mesafe olacak şekilde mikrofonlar yerleştiriliyor. Bu teknoloji, 3 boyutlu dinleme deneyimi yaratmak için iki farklı kaynaktan ses kaydı yapılmasına dayanıyor.

Bu yaklaşım hayati önem taşıyor çünkü kulağımız sadece sesi duymakla kalmıyor, aynı zamanda sesin kaynağının yönünü ölçmemize de yardımcı oluyor. Genel amaç, canlı, konser benzeri bir his sağlayabilen stereo efektli doğal bir ses alanı üretmektir. Ya da modern bağlamda, mekânsal dinleme. Bu teknoloji, gerçekçi surround ses sağlayarak kullanıcı deneyimini artırıyor.

Bu çalışma, akıllı saatlere su altı GPS'i takabilen, böcekleri fotoğrafçıya dönüştürebilen, elektronik cihazlarla etkileşime girebilen beyin implantları, enfeksiyonları duyabilen bir mobil uygulama ve Plus gibi uygulamalara imza atan Profesör Shyam Gollakota liderliğindeki bir ekibin eseridir. Bu başarılar, Profesör Gollakota'nın yenilikçi teknoloji alanındaki uzmanlığını gözler önüne sermektedir.

 

Çok konuşmacılı çeviri nasıl çalışır?

Enstitünün Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu'nda profesör olarak görev yapan Golkota, "İlk kez, her bir kişinin sesini ve geldiği yönü kaydettik" diye açıklıyor.

Y2K'da kulaklık takan bir adam bir erkek ve bir kızın arasında duruyor.

Ekip, teknolojilerini çevredeki konuşmacı sayısını belirleyerek başlayan ve insanların dinleme aralığına girip çıktıkça bu sayıyı gerçek zamanlı olarak güncelleyen radara benzetiyor. Bu yaklaşım tamamen cihaz tabanlıdır ve kullanıcı ses akışlarının tercüme için bir bulut sunucusuna gönderilmesini içermez. Ah, mahremiyet!

Grup, konuşmaları tercüme etmenin yanı sıra "her konuşmacının sesinin ifade edici niteliklerini ve seviyesini" de koruyor. Ayrıca hoparlörün odada hareket etmesiyle yön ve ses ayarları yapılır. İlginçtir ki, Apple'ın da geliştirdiği söyleniyor AirPods'un sesi çevirmesine olanak tanıyan bir sistem gerçek zamanda.

Yapay zeka ile anında çeviri nasıl sağlanır?

Washington Üniversitesi (UW) ekibi, yapay zeka destekli akıllı kulaklıkların çeviri yeteneklerini yaklaşık bir düzine kapalı ve açık alanda test etti. Performans açısından bakıldığında sistem, çevrilen sesi 12-2 saniye içerisinde alıp, işleyip, üretebiliyor. Test katılımcıları 4-3 saniyelik bir gecikmeyi tercih ediyor gibi görünüyor, ancak ekip çeviri sürecini hızlandırmak için çalışıyor.

Phil Nickinson, Sonos Ace kulaklıklarını takıyor.

Ekip şimdiye kadar yalnızca İspanyolca, Almanca ve Fransızca çevirileri test etti, ancak Plus'ı pakete eklemeyi umuyor. Teknik olarak, kör kaynak ayırma, yerelleştirme, gerçek zamanlı ifade çevirisi ve iki kulaklı iletimi tek bir akışta yoğunlaştırdılar; bu da oldukça etkileyici bir başarı. Gelişmiş teknolojilerin bu entegrasyonu, eş zamanlı çeviri alanında büyük bir sıçramayı temsil ediyor.

Sistem için ekip, Apple M2 çipinde gerçek zamanlı çalışabilen ve gerçek zamanlı çıkarım yapabilen bir konuşma çeviri modeli geliştirdi. Seslendirmeler bir çift Sony WH-1000XM4 gürültü önleyici kulaklık ve bir adet Sonic Presence SP15C binaural USB mikrofon ile gerçekleştirildi.

Ve işte en güzel kısmı. Vakfın basın bülteninde, "Kavram kanıtı makine kodu başkalarının üzerine inşa etmesi için kullanılabilir" denildi. Bu, bilim camiasının ve açık kaynaklı yazılım topluluğunun, UW ekibi tarafından atılan temellere dayanan daha gelişmiş projelerden ders çıkarabileceği ve bunları geliştirebileceği anlamına geliyor. Bu durum, yapay zekayı kullanan çeviri teknolojisinde gelecekteki gelişmelere kapı aralıyor.

Yoruma kapalı.