Pazartesi, Haziran 17, 2024
Ana SayfaTeknoloji HaberleriRiffusion'ın yapay zekası, görsel sonogramlar kullanarak metinden müzik üretiyor

Riffusion’ın yapay zekası, görsel sonogramlar kullanarak metinden müzik üretiyor

Bir bilgisayar monitöründen patlayan müzik notalarının yapay zeka tarafından oluşturulmuş bir görüntüsü.
Büyüt / Bir bilgisayar monitöründen patlayan müzik notalarının yapay zeka tarafından oluşturulmuş bir görüntüsü.

Ars Teknik

Perşembe günü, bir çift teknoloji meraklısı, sesin görsel bir temsilini oluşturarak ve onu oynatmak için sese dönüştürerek metin istemlerinden müzik üreten bir AI modeli olan Riffusion’ı piyasaya sürdü. Stable Diffusion 1.5 görüntü sentezi modelinin ince ayarlı bir sürümünü kullanır ve ses işlemeye yeni bir şekilde görsel gizli difüzyon uygular.

Seth Forsgren ve Hayk Martiros tarafından bir hobi projesi olarak oluşturulan Riffusion, sesi iki boyutlu bir görüntüde depolayan sonogramlar üreterek çalışıyor. Bir sonogramda, X ekseni zamanı (frekansların soldan sağa çalınma sırası) ve Y ekseni seslerin frekansını temsil eder. Bu arada, görüntüdeki her pikselin rengi, zamanın belirli bir anında sesin genliğini temsil eder.

Bir sonogram bir resim türü olduğu için Stable Difusion bunu işleyebilir. Forsgren ve Martiros, temsil ettikleri seslerin veya müzik türlerinin açıklamalarına bağlı örnek sonogramlarla özel bir Kararlı Difüzyon modeli geliştirdiler. Bu bilgiyle, Riffusion, “caz”, “rock” ve hatta klavyede yazmak gibi, duymak istediğiniz müzik türünü veya sesi tanımlayan metin istemlerine dayalı olarak anında yeni müzik üretebilir.

Sonogram görüntüsünü oluşturduktan sonra, Riffusion Torchaudio’yu kullanarak sonogramı ses olarak değiştirir ve ses olarak yeniden çalar.

Bir sonogram, iki boyutlu bir görüntüde zamanı, frekansı ve genliği temsil eder.
Büyüt / Bir sonogram, iki boyutlu bir görüntüde zamanı, frekansı ve genliği temsil eder.

Riffusion’ın yaratıcıları, açıklama sayfasında “Bu, hiçbir değişiklik içermeyen, yalnızca metinle eşleştirilmiş spektrogram görüntülerinde ince ayar yapılmış v1.5 Kararlı Difüzyon modelidir” diye yazıyor. “Çekirdeği değiştirerek bir bilgi isteminin sonsuz varyasyonlarını oluşturabilir. İmg2img, iç boyama, olumsuz istemler ve enterpolasyon gibi aynı web kullanıcı arayüzleri ve teknikleri kutudan çıktığı gibi çalışır.”

Riffusion web sitesini ziyaret edenler, spektrogramı sayfanın sol tarafında sürekli olarak görselleştirirken gerçek zamanlı enterpolasyonlu sonogramlar (kesintisiz oynatma için düzgün bir şekilde birleştirilmiş) oluşturan etkileşimli bir web uygulaması sayesinde AI modelini deneyebilir.

Bilgi istemlerini yazmanıza ve ortaya çıkan sonogramları duymanıza olanak tanıyan Riffusion web sitesinin ekran görüntüsü.
Büyüt / Bilgi istemlerini yazmanıza ve ortaya çıkan sonogramları duymanıza olanak tanıyan Riffusion web sitesinin ekran görüntüsü.

Stilleri de birleştirebilir. Örneğin, “pürüzsüz tropikal dans caz” yazmak, yeni bir sonuç için farklı türlerin unsurlarını getirir ve stilleri harmanlayarak denemeyi teşvik eder.

Tabii ki Riffusion, yapay zeka destekli ilk müzik üreteci değil. Bu yılın başlarında Harmonai, yapay zeka destekli üretken bir müzik modeli olan Dance Diffusion’ı piyasaya sürdü. OpenAI’nin 2020’de duyurulan Jukebox’ı da bir sinir ağıyla yeni müzik üretiyor. Ve Sounddraw gibi web siteleri anında kesintisiz müzik oluşturur.

Daha modern AI müzik çabalarıyla karşılaştırıldığında, Riffusion daha çok hobi projesi gibi geliyor. Ürettiği müzik, ilginçten anlaşılmazlığa kadar uzanıyor, ancak görsel bir alanda sesi manipüle eden gizli difüzyon teknolojisinin dikkate değer bir uygulaması olmaya devam ediyor.

Riffusion model kontrol noktası ve kodu GitHub’da mevcuttur.

RELATED ARTICLES

Popüler Konular