Pazartesi, Haziran 17, 2024
Ana SayfaTeknoloji HaberleriJPEG'den daha mı iyi? Araştırmacı, Kararlı Difüzyon'un görüntüleri sıkıştırabileceğini keşfetti

JPEG’den daha mı iyi? Araştırmacı, Kararlı Difüzyon’un görüntüleri sıkıştırabileceğini keşfetti

Sıkıştırmanın bir örneği
büyüt / Bu pürüzlü, renkli bloklar, görüntü sıkıştırma kavramının tam olarak neye benzediğidir.

Benj Edwards / Ars Technica

Geçen hafta, İsviçreli yazılım mühendisi Matthias Bühlmann, popüler görüntü sentezi modeli Stable Diffusion’ın, önemli uyarılar olsa da, mevcut bitmap’li görüntüleri JPEG veya WebP’den daha az görsel artifaktla yüksek sıkıştırma oranlarında sıkıştırabildiğini keşfetti.

Stable Difüzyon, tipik olarak metin açıklamalarına dayalı olarak (“istemler” olarak adlandırılır) görüntüler oluşturan bir AI görüntü sentez modelidir. AI modeli bu yeteneği internetten çekilen milyonlarca görüntüyü inceleyerek öğrendi. Eğitim süreci sırasında model, görüntüler ve ilgili kelimeler arasında istatistiksel ilişkiler kurar, her bir görüntü hakkında önemli bilgilerin çok daha küçük bir temsilini yapar ve bunları AI görüntü modelinin bildiklerini temsil eden matematiksel değerler olan “ağırlıklar” olarak depolar. konuşmak.

Kararlı Difüzyon, görüntüleri ağırlık formuna analiz edip “sıkıştırdığında”, araştırmacıların “gizli uzay” dediği yerde bulunurlar; bu, bunların bir tür bulanık potansiyel olarak var olduklarını söylemenin bir yolu, kodu çözüldükten sonra görüntülere dönüştürülebilir. . Stable Diffusion 1.4 ile, ağırlıklar dosyası kabaca 4 GB’dir, ancak yüz milyonlarca görüntü hakkındaki bilgileri temsil eder.

Görüntüleri sıkıştırmak için Kararlı Yayılma kullanma örnekleri.
büyüt / Görüntüleri sıkıştırmak için Kararlı Yayılma kullanma örnekleri.

Çoğu kişi metin istemleri ile Kararlı Difüzyonu kullanırken, Bühlmann metin kodlayıcıyı kesip yerine görüntülerini Kararlı Difüzyon’un düşük hassasiyetli 512 × 512 görüntü alan ve daha yüksek hassasiyetli 64 × 64 gizli bir görüntüye dönüştüren görüntü kodlayıcı işlemine zorladı. uzay temsili. Bu noktada, görüntü orijinalinden çok daha küçük bir veri boyutunda bulunur, ancak yine de oldukça iyi sonuçlarla 512 × 512 görüntüye genişletilebilir (kodu çözülebilir).

Testleri yürütürken Bühlmann, Stable Diffusion ile sıkıştırılmış yeni bir görüntünün daha yüksek sıkıştırma oranlarında (daha küçük dosya boyutu) öznel olarak JPEG veya WebP’den daha iyi göründüğünü buldu. Bir örnekte, JPEG kullanılarak 5,68 KB, WebP kullanılarak 5,71 KB ve Kararlı Diffüzyon kullanılarak 4,98 KB’ye sıkıştırılmış bir lamanın (başlangıçta 768 KB) bir fotoğrafını gösterir. Kararlı Yayılma görüntüsü, diğer biçimlerde sıkıştırılmış olanlardan daha fazla çözümlenmiş ayrıntıya ve daha az belirgin sıkıştırma yapaylığına sahip görünüyor.

Görüntüleri sıkıştırmak için Kararlı Difüzyon kullanımına ilişkin deneysel örnekler.  SD sonuçları en sağda.
büyüt / Görüntüleri sıkıştırmak için Kararlı Difüzyon kullanımına ilişkin deneysel örnekler. SD sonuçları en sağda.

Bühlmann’ın yöntemi şu anda önemli sınırlamalar getiriyor, ancak: Yüzler veya metin ile iyi değil ve bazı durumlarda, kodu çözülmüş görüntüde kaynak görüntüde mevcut olmayan ayrıntılı özellikleri gerçekten hayal edebiliyor. (Muhtemelen görüntü sıkıştırıcınızın var olmayan bir görüntüde ayrıntılar bulmasını istemezsiniz.) Ayrıca, kod çözme için 4GB Kararlı Yayılım ağırlıkları dosyası ve ekstra kod çözme süresi gerekir.

Kararlı Yayılımın bu kullanımı alışılmamış ve pratik bir çözümden daha eğlenceli bir hack olsa da, potansiyel olarak görüntü sentezi modellerinin yeni bir gelecekteki kullanımına işaret edebilir. Bühlmann’ın kodu Google Colab’da bulunabilir ve denemesi hakkında daha fazla teknik ayrıntıyı Towards AI hakkındaki gönderisinde bulabilirsiniz.

RELATED ARTICLES

Popüler Konular