Cumartesi, Haziran 22, 2024
Ana SayfaTeknoloji HaberleriGoogle'ın en yeni AI jeneratörü, metin istemlerinden HD video oluşturur

Google’ın en yeni AI jeneratörü, metin istemlerinden HD video oluşturur

Hala

Google Imagen Video tarafından oluşturulan “Bulaşık yıkayan bir oyuncak ayı”dan bir kare.

Google

Bugün Google, yazılı bir istemden saniyede 24 kare hızında 1280 × 768 video üretebilen bir metinden videoya AI modu olan Imagen Video’nun geliştirildiğini duyurdu. Şu anda araştırma aşamasında, ancak Google Imagen’den beş ay sonra ortaya çıkması, video sentez modellerinin hızlı gelişimine işaret ediyor.

OpenAI’nin DALE-2 metinden görüntüye üretecinin piyasaya sürülmesinden sadece altı ay sonra, AI difüzyon modelleri alanındaki ilerleme hızla ısınıyor. Google’ın Imagen Video duyurusu, Meta’nın metinden videoya yapay zeka aracı Make-A-Video’yu piyasaya sürmesinden bir haftadan kısa bir süre sonra geldi.

Google’ın araştırma makalesine göre, Imagen Video, ünlü ressamların (örneğin, Vincent van Gogh’un tabloları) çalışmalarına dayalı videolar oluşturma, nesne yapısını korurken 3B dönen nesneler oluşturma ve metin oluşturma gibi birkaç dikkate değer stilistik yetenek içerir. çeşitli animasyon stilleri. Google, genel amaçlı video sentez modellerinin “yüksek kaliteli içerik oluşturmanın zorluğunu önemli ölçüde azaltabileceğini” umuyor.

Imagen Video’nun yeteneklerinin anahtarı, ilk metin istemini (“bulaşıkları yıkayan bir ayı” gibi) düşük çözünürlüklü bir videoya (16 kare, 24×48 piksel, 3 fps’de) dönüştüren yedi difüzyon modelinden oluşan bir “kademeli”dir. ), ardından her adımda daha yüksek kare hızlarıyla aşamalı olarak daha yüksek çözünürlüklere yükseltir. Son çıkış videosu 5,3 saniye uzunluğundadır.

Imagen Video web sitesinde sunulan video örnekleri, sıradan (“Kisinden damlayan eriyen dondurma”) daha fantastik (“Fırtınalı bir okyanusta korsan gemileri arasındaki yoğun bir savaşta uçmak”) arasında değişir. Beş ay önce piyasaya sürülen CogVideo gibi önceki metinden görüntüye modellerden daha fazla akıcılık ve ayrıntı gösteriyor.

Google tarafından sağlanan Google Imagen Video kreasyonlarından örnekler.
büyüt / Google tarafından sağlanan Google Imagen Video kreasyonlarından örnekler.

Google’a bitişik bir başka metinden videoya modeli de bugün resmi olarak piyasaya çıktı. Phenaki adı verilen, ayrıntılı bilgi istemlerinden daha uzun videolar oluşturabilir. Bu, metin istemlerinden 3D modeller oluşturabilen DreamFusion ile birlikte, arXiv’deki AI kağıtlarının sayısı ile difüzyon modellerindeki rekabetçi gelişimin hızla devam ettiğini gösteriyor. katlanarak büyüyen bazı araştırmacılar için zorlaştıran bir oranda sürdür son gelişmelerle.

Google Imagen Video için eğitim verileri, herkese açık LAION-400M resim-metin veri kümesinden ve Google’a göre “14 milyon video-metin çifti ve 60 milyon resim-metin çiftinden” geliyor. Sonuç olarak, Google tarafından filtrelenen “sorunlu veriler” konusunda eğitildi, ancak yine de müstehcen ve şiddet içeren içeriğin yanı sıra sosyal klişeler ve kültürel önyargılar içerebilir. Firma ayrıca aracının “sahte, nefret dolu, açık veya zararlı içerik oluşturmak için” kullanılabileceğinden endişe ediyor.

Sonuç olarak, yakın zamanda genel bir açıklama görmemiz pek olası değil: Google, “Bu endişeler giderilinceye kadar Imagen Video modelini veya kaynak kodunu yayınlamamaya karar verdik” diyor.

RELATED ARTICLES

Popüler Konular