Cumartesi, Aralık 14, 2024
Ana SayfaTeknoloji HaberleriMeta'nın AI destekli ses codec'i MP3 üzerinden 10x sıkıştırma vaat ediyor

Meta’nın AI destekli ses codec’i MP3 üzerinden 10x sıkıştırma vaat ediyor

Bir ses dalgasındaki verilerin resimli bir tasviri.
büyüt / Bir ses dalgasındaki verilerin resimli bir tasviri.

meta yapay zeka

Geçen hafta Meta, MP3 formatından 10 kat daha küçük sesi 64 kbps’de kalite kaybı olmadan sıkıştırabilen “EnCodec” adlı AI destekli bir ses sıkıştırma yöntemini duyurdu. Meta, bu tekniğin, sorunlu hizmet bulunan bölgelerdeki telefon görüşmeleri gibi düşük bant genişliğine sahip bağlantılarda konuşmanın ses kalitesini önemli ölçüde artırabileceğini söylüyor. Teknik aynı zamanda müzik için de çalışır.

Meta, 25 Ekim’de Meta AI araştırmacıları Alexandre tarafından yazılan “Yüksek Sadakatli Sinirsel Ses Sıkıştırma” başlıklı bir makalede teknolojiye giriş yaptı. Defossez, Jade Copet, Gabriel Synnaeve ve Yossi Adi. Meta ayrıca EnCodec’e ayrılmış blogunda araştırmayı özetledi.

Meta, yeni ses kodlayıcı/kod çözücünün sesi MP3'ten 10 kat daha küçük sıkıştırabileceğini iddia ediyor.
büyüt / Meta, yeni ses kodlayıcı/kod çözücünün sesi MP3’ten 10 kat daha küçük sıkıştırabileceğini iddia ediyor.

meta yapay zeka

Meta, yöntemini, sesi istenen bir hedef boyuta sıkıştırmak için eğitilmiş üç parçalı bir sistem olarak tanımlar. İlk olarak, kodlayıcı sıkıştırılmamış verileri daha düşük kare hızlı “gizli uzay” temsiline dönüştürür. “Kuantizer” daha sonra orijinal sinyali yeniden oluşturmak için kullanılacak en önemli bilgileri takip ederken temsili hedef boyuta sıkıştırır. (Bu sıkıştırılmış sinyal, bir ağ üzerinden gönderilen veya diske kaydedilen şeydir.) Son olarak, kod çözücü, tek bir CPU üzerinde bir sinir ağı kullanarak sıkıştırılmış verileri gerçek zamanlı olarak sese dönüştürür.

Meta'nın EnCodec sıkıştırmasının nasıl çalıştığını gösteren bir blok diyagram.
büyüt / Meta’nın EnCodec sıkıştırmasının nasıl çalıştığını gösteren bir blok diyagram.

meta yapay zeka

Meta’nın ayrımcıları kullanması, bir sinyalin ayırt edici ve tanınabilir olmasını sağlayan temel unsurlarını kaybetmeden sesi mümkün olduğunca sıkıştırmak için bir yöntem oluşturmanın anahtarıdır:

“Kayıplı sıkıştırmanın anahtarı, insanlar tarafından algılanamayacak değişiklikleri belirlemektir, çünkü mükemmel yeniden oluşturma, düşük bit hızlarında imkansızdır. Bunu yapmak için, oluşturulan örneklerin algısal kalitesini iyileştirmek için ayırıcılar kullanıyoruz. Bu, bir kat- Ayırt edicinin işinin gerçek örnekler ile yeniden oluşturulmuş örnekler arasında ayrım yapmak olduğu ve fare oyunu. Sıkıştırma modeli, yeniden oluşturulmuş örneklerin algısal olarak orijinal örneklere daha çok benzemesini sağlayarak ayrımcıları kandırmak için örnekler üretmeye çalışır.”

Ses sıkıştırma ve açma için bir sinir ağı kullanmanın özellikle konuşma sıkıştırma için yeni olmaktan uzak olduğunu belirtmekte fayda var, ancak Meta’nın araştırmacıları, teknolojiyi 48 kHz stereo sese uygulayan ilk grup olduklarını iddia ediyorlar (CD’nin 44.1 kHz örnekleme hızından biraz daha iyi). ), İnternette dağıtılan müzik dosyaları için tipiktir.

Uygulamalara gelince, Meta, bu AI destekli “ses hiper sıkıştırmasının” kötü ağ koşullarında “daha hızlı, daha kaliteli aramaları” destekleyebileceğini söylüyor. Ve tabii ki Meta olarak araştırmacılar, teknolojinin sonunda “büyük bant genişliği iyileştirmeleri gerektirmeden zengin metaverse deneyimleri” sunabileceğini söyleyerek EnCodec’in metaverse çıkarımlarından da bahsediyorlar.

Bunun ötesinde, belki bir gün gerçekten çok küçük müzik ses dosyaları da alabiliriz. Şimdilik, Meta’nın yeni teknolojisi araştırma aşamasında, ancak yüksek kaliteli sesin daha az bant genişliği kullanabileceği bir geleceğe işaret ediyor; bu, akış ortamından aşırı yüklenmiş ağlara sahip mobil geniş bant sağlayıcıları için harika bir haber olurdu.

RELATED ARTICLES

Popüler Konular