Yakın zamanda Adobe, arka plan gürültüsünü kaldırarak ve sesi daha güçlü hale getirerek bazı düşük kaliteli ses kayıtlarını iyileştirebilen, yapay zeka destekli ücretsiz bir ses işleme aracı yayınladı. Çalıştığında, sonuç, yüksek kaliteli bir mikrofonla profesyonel bir ses kabininde yapılmış bir kayıt gibi ses çıkarır.
Enhance Speech adlı yeni araç, Project Shasta adlı bir AI araştırma projesinin parçası olarak ortaya çıktı. Yakın zamanda Adobe, Project Shasta’nın adını Adobe Podcast olarak değiştirdi.
Enhance Speech’i kullanmak ücretsizdir ancak bir Adobe hesabı oluşturmayı gerektirir ve en iyi masaüstü web tarayıcısında çalışır. Kaydolduktan sonra, kullanıcılar en fazla bir saat uzunluğunda veya 1 GB boyutunda bir MP3 veya WAV dosyası yükleyebilir. Birkaç dakika sonra sonucu tarayıcınızda dinleyebilir veya elde edilen temizlenmiş sesi indirebilirsiniz.
Hizmetle yaptığımız testlerde Konuşmayı Geliştir, karışma veya aşırı gürültü olmayan bir ses içeren sesle en iyi şekilde çalıştı. Örneğin, bir iMac’in yerleşik mikrofonundan 3 metre ötede duran bir kişinin sesini kaydettik, yakındaki fan gürültüsü dahil ve ortaya çıkan ses (Bir kez Enhance Speech tarafından işlendikten sonra), gürültüsüz bir şekilde yakından kaydedilmiş gibi geldi. profesyonel mikrofonlu stüdyo.
O nasıl çalışır? Adobe herhangi bir ayrıntı sağlamadı, ancak şirketin derin öğrenme modelini birçok (muhtemelen binlerce) saat temiz ve gürültülü ses üzerinde eğittiğinden şüpheleniyoruz. Model daha sonra insan sesi frekanslarını seçmeyi “öğrenebilir” ve kaynakla tam olarak eşleşen bir faksimile sentezleyebilir. Adobe daha fazla teknik ayrıntı sağlayana kadar bu bir spekülasyon ve yorum için şirkete ulaştık.
Bu bağlamda, bazı Hacker News yorumcuları, son derece gürültülü seslerden (bir şelalenin yanında kaydedilen konuşma gibi) veya İngilizce olmayan kaynaklardan halüsinasyonlu sonuçlar (yapay zekanın giriş sesini yanlış yorumladığı hayalet sesler gibi beklenmedik çıktılar) bildirdiler. Enhance Speech, geleneksel bir gürültü azaltma tekniğinden daha fazlasını yapıyor.
Enhance Speech, bu tür yapay zeka destekli gürültü azaltma yeteneği sağlayan ilk araç değil. Örneğin, mayavoz adlı bir açık kaynak paketi ve Audo Studio adlı ticari bir hizmet benzer bir şey yapar.
Enhance Speech’in, bir Mic Check aracı (şu anda ücretsiz olarak da mevcuttur) ve hala bir davet sürecinde olan transkript tabanlı bir ses düzenleme aracı dahil olmak üzere, Adobe’nin yapay zeka destekli daha geniş bir podcasting araçları grubunun bir parçası olduğunu belirtmekte fayda var. sadece beta testi.