Çarşamba günü, OpenAI, sesi insan tanıma yeteneğine yaklaşan bir düzeyde tanıyan ve çeviren Whisper adlı yeni bir açık kaynaklı AI modeli yayınladı. Röportajları, podcast’leri, konuşmaları ve daha fazlasını kopyalayabilir.
OpenAI, Whisper’ı 680.000 saatlik ses verisi ve web’den toplanan 98 dilde eşleşen transkriptler konusunda eğitti. OpenAI’ye göre, bu açık toplama yaklaşımı “aksanlara, arka plan gürültüsüne ve teknik dile karşı geliştirilmiş sağlamlık” sağladı. Ayrıca konuşulan dili algılayabilir ve İngilizce’ye çevirebilir.
OpenAI, Whisper’ı, daha sonra modelin çıktısına çevrilebilecek ilişkileri öğrenmek için girdi verilerinden toplanan bağlamı kullanabilen bir tür sinir ağı olan bir kodlayıcı-kod çözücü dönüştürücü olarak tanımlar. OpenAI, Whisper’ın işleyişine ilişkin bu genel bakışı sunar:
Giriş sesi 30 saniyelik parçalara bölünür, bir log-Mel spektrogramına dönüştürülür ve ardından bir kodlayıcıya iletilir. Bir kod çözücü, ilgili metin başlığını tahmin etmek için eğitilir ve tek modeli dil tanımlama, tümce düzeyinde zaman damgaları, çok dilli konuşma transkripsiyonu ve İngilizce’ye konuşma çevirisi gibi görevleri gerçekleştirmeye yönlendiren özel belirteçlerle karıştırılır.
OpenAI, Whisper’ı açık kaynak kullanarak, konuşma işleme ve erişilebilirlik araçlarını geliştirmek için gelecekte başkalarının üzerine inşa edebileceği yeni bir temel model sunmayı umuyor. OpenAI bu cephede önemli bir geçmişe sahiptir. Ocak 2021’de OpenAI, DALL-E 2 ve Stable Difusion gibi hızla gelişen görüntü sentezi teknolojisinin son dönemini ateşleyen açık kaynaklı bir bilgisayarlı görü modeli olan CLIP’i piyasaya sürdü.
Ars Technica’da, GitHub’da bulunan koddan Whisper’ı test ettik ve bir podcast bölümü ve bir telefon görüşmesinden alınan özellikle anlaşılması zor bir ses bölümü de dahil olmak üzere birden çok örnekle besledik. Standart bir Intel masaüstü CPU’yu çalıştırırken biraz zaman alsa da (teknoloji henüz gerçek zamanlı olarak çalışmıyor), Whisper, Python programı aracılığıyla sesi metne dönüştürme konusunda iyi bir iş çıkardı – bazı yapay zeka desteklilerden çok daha iyi Geçmişte denediğimiz sesli transkripsiyon hizmetleri.
Doğru kurulumla, Whisper röportajları, podcast’leri yazıya dökmek ve İngilizce olmayan dillerde üretilen podcast’leri makinenizde İngilizce’ye ücretsiz olarak çevirmek için kolayca kullanılabilir. Bu, sonunda transkripsiyon endüstrisini bozabilecek güçlü bir kombinasyon.
Bugünlerde neredeyse her yeni AI modelinde olduğu gibi, Whisper da olumlu avantajlar ve yanlış kullanım potansiyeli getiriyor. Whisper’ın model kartında (“Geniş Etkiler” bölümü altında), OpenAI, Whisper’ın gözetimi otomatikleştirmek veya bir konuşmadaki bireysel konuşmacıları belirlemek için kullanılabileceğini, ancak şirket bunun “öncelikle faydalı amaçlar için” kullanılacağını umuyor.