Perşembe, Haziran 20, 2024
Ana SayfaTeknoloji HaberleriMusicLM: Google AI, 24 kHz'de çeşitli türlerde müzik üretir

MusicLM: Google AI, 24 kHz’de çeşitli türlerde müzik üretir

Patlayan bir müzik topunun yapay zeka tarafından oluşturulmuş görüntüsü.
Büyüt / Patlayan bir müzik topunun yapay zeka tarafından oluşturulmuş görüntüsü.

Ars Teknik

Perşembe günü, Google’dan araştırmacılar, “bozuk bir gitar riffiyle desteklenen sakinleştirici bir keman melodisi” gibi metin açıklamalarından 24 KHz müzikal ses oluşturabilen MusicLM adlı yeni bir üretken AI modelini duyurdu. Ayrıca uğultulu bir melodiyi farklı bir müzik tarzına dönüştürebilir ve birkaç dakikalık müzik çıkışı verebilir.

MusicLM, Google’ın “a” olarak adlandırdığı şey üzerinde eğitilmiş bir yapay zeka modeli kullanır. etiketlenmemiş müziğin geniş veri kümesi” ile birlikte MusicCaps, 5.521 müzik-metin çiftinden oluşan yeni bir veri kümesi. MusicCaps, metin açıklamalarını insan uzmanlardan ve eşleşen ses kliplerini Google’ın YouTube videolarından alınan 2 milyondan fazla etiketli 10 saniyelik ses klibi koleksiyonu olan AudioSet’ten alır.

Genel olarak, MusicLM iki ana kısımda çalışır: birincisi, bir dizi ses belirteci (ses parçaları) alır ve bunları eğitim için altyazılardaki anlamsal belirteçlere (anlamı temsil eden kelimeler) eşler. İkinci kısım, kullanıcı altyazılarını ve/veya giriş sesini alır ve akustik belirteçler (sonuçta ortaya çıkan şarkı çıktısını oluşturan ses parçaları) üretir. Sistem, SoundStream ve MuLan gibi diğer bileşenlerle birlikte AudioLM (Google tarafından Eylül ayında tanıtıldı) adlı daha eski bir yapay zeka modeline dayanır.

Google, MusicLM’nin ses kalitesi ve metin açıklamalarına bağlılık açısından önceki AI müzik oluşturucularından daha iyi performans gösterdiğini iddia ediyor. MusicLM tanıtım sayfasında, Google, müziğin hissini tanımlayan “zengin altyazılardan” ve hatta vokallerden (şimdiye kadar anlamsız olan) ses oluşturan AI modelinin eylem halindeki sayısız örneğini sunar. Sağladıkları zengin altyazıya bir örnek:

Ağır tempolu, bas ve davul ağırlıklı reggae şarkısı. Sürekli elektro gitar. Zil sesleri ile tiz bongolar. Vokaller rahat bir hisle rahat, çok etkileyici.

Google ayrıca MusicLM’nin “uzun nesil” (basit bir istemden beş dakikalık müzik klipleri oluşturma), “hikaye modu” (bir dizi metin istemini alır ve onu değişen bir müzik melodileri dizisine dönüştürür), “metin ve melodi” özelliklerini gösterir. koşullandırma” (insanın uğultulu veya ıslıklı ses girişini alır ve bunu istemde ortaya konan stile uyacak şekilde değiştirir) ve resim altyazılarının havasına uyan müzik üretir.

Akademik makalesinden alınan MusicLM AI müzik oluşturma modelinin bir blok diyagramı.
Büyüt / Akademik makalesinden alınan MusicLM AI müzik oluşturma modelinin bir blok diyagramı.

Google Araştırması

Google, örnek sayfanın ilerisinde, MusicLM’nin belirli enstrümanları (ör. flüt, çello, gitar), farklı müzik türlerini, çeşitli müzisyen deneyim düzeylerini, yerleri (hapishaneden kaçma, spor salonu), zaman dilimlerini (bir kulüp 1950’ler) ve daha fazlası.

Yapay zeka tarafından üretilen müzik, hiçbir şekilde yeni bir fikir değildir, ancak önceki on yılların yapay zeka müzik oluşturma yöntemleri genellikle daha sonra elle veya bir sentezleyici aracılığıyla çalınan müzik notaları oluştururken MusicLM, müziğin ham ses frekanslarını üretir. Ayrıca Aralık ayında, benzer şekilde metin açıklamalarından müzik yaratabilen ancak aslına uygun olmayan bir hobi yapay zeka projesi olan Riffusion’ı ele aldık. Google, MusicLM akademik makalesinde Riffusion’a atıfta bulunarak MusicLM’nin kalite açısından onu geride bıraktığını söylüyor.

MusicLM makalesinde, yaratıcıları, “yaratıcı içeriğin potansiyel olarak kötüye kullanılması” (yani, telif hakkı sorunları), eğitim verilerinde yeterince temsil edilmeyen kültürlere yönelik potansiyel önyargılar ve potansiyel kültürel sahiplenme sorunları dahil olmak üzere MusicLM’nin potansiyel etkilerini özetlemektedir. Sonuç olarak Google, bu risklerin üstesinden gelmek için daha fazla çalışma yapılması gerektiğini vurguluyor ve şu kodu geri alıyor: “Bu noktada modelleri yayınlama planımız yok.”

Google’ın araştırmacıları şimdiden gelecekteki iyileştirmelere bakıyor: “Gelecekteki çalışmalar, metin koşullandırmanın ve ses kalitesinin iyileştirilmesinin yanı sıra şarkı sözü oluşturmaya odaklanabilir. daha yüksek örnekleme hızında müzik ek bir hedeftir.”

Yapay Zeka araştırmacılarının, herhangi biri yalnızca onu tanımlayarak herhangi bir tarzda stüdyo kalitesinde müzik yaratabilene kadar müzik üretim teknolojisini geliştirmeye devam edeceğini söylemek muhtemelen fazla zorlama olmayacaktır; ancak henüz hiç kimse bu hedefe ne zaman ulaşılacağını veya nasıl ulaşılacağını tam olarak tahmin edemez. tam olarak müzik endüstrisini etkileyecektir. Daha fazla gelişme için bizi izlemeye devam edin.

RELATED ARTICLES

Popüler Konular