Geçen hafta AI’da düzenleme konusundaki tartışmalar, dünyanın sonunun geldiğine dair korkular ve iş kesintisi arasında bulutlar kısa bir süreliğine dağıldı. Kısa ve ışıltılı bir an için, Will Smith’in şu anda korkunç görkemiyle hayatımızı aydınlatan spagetti yediği, yapay zeka tarafından oluşturulmuş kesinlikle saçma bir videonun keyfini çıkarabiliriz.
Pazartesi günü, “chaindrop” adlı bir Reddit kullanıcısı, yapay zeka tarafından oluşturulan videoyu r/StableDiffusion alt dizininde paylaştı. BT hızla yayıldı diğer sosyal medya biçimlerine ve basında karışık düşüncelere ilham verdi. Örneğin Vice, videonun “hayatınızın geri kalanında peşinizden gitmeyeceğini” söylerken, AV Club bunu “AI gelişimi için doğal son nokta” olarak nitelendirdi.
Arada bir yerdeyiz. 20 saniyelik sessiz video, birbirine dikilmiş, bağımsız olarak oluşturulmuş 10 iki saniyelik bölümden oluşur. Her biri, simüle edilmiş bir Will Smith’in (bir noktada, hatta iki Will Smiths) açgözlülükle spagetti yutmasının farklı açılarını gösteriyor. Yapay zeka sayesinde tamamen bilgisayar tarafından üretilmiştir.
Ve şimdi göreceksiniz:
Ne düşündüğünüzü biliyoruz: “1987’de bu tür gelişmiş bir deepfake teknolojisi görmemiş miydim?Koşan Adam?” Hayır, Jesse “The Body” Ventura, 2017 ile 2019 yılları arasında geçen distopik bir yarışma programında sahte Arnold Schwarzenegger’i yeniyordu. Burada 2023’te, spagetti yiyen sahte Will Smith var.
Bu başarı, Alibaba’nın bir araştırma bölümü olan DAMO Vision Intelligence Lab tarafından birkaç hafta önce piyasaya sürülen ModelScope adlı yeni bir açık kaynaklı AI aracı sayesinde mümkün oldu. ModelScope, LAION5B, ImageNet ve Webvid veri kümelerine kazınan milyonlarca görüntüyü ve binlerce videoyu analiz ederek bilgi istemlerinden yeni videolar oluşturmak üzere eğitilmiş bir “text2video” yayma modelidir. Bu, Shutterstock’tan videoları, dolayısıyla çıktısında hayaletimsi “Shutterstock” filigranını içerir.
AI topluluğu HuggingFace, bir hesap gerektirmesine ve onu çalıştırmak için hesaplama süresi için ödeme yapmanız gerekmesine rağmen, şu anda ModelScope’un çevrimiçi bir demosuna ev sahipliği yapıyor. Kullanmaya çalıştık ama muhtemelen Smith’in spagetti çılgınlığından dolayı aşırı yüklendi.
Chaindrop’a göre, videoyu oluşturmak için iş akışı oldukça basitti: ModelScope’a “Will Smith spagetti yiyor” istemini verin ve videoyu saniyede 24 kare (FPS) hızında oluşturun. Ardından, chaindrop, FPS’yi 24’ten 48’e çıkarmak için Flowframes enterpolasyon aracını kullandı, ardından yarı hıza düşürerek daha akıcı bir video sağladı.
Elbette ModelScope, gelişmekte olan text2video alanıyla ilgili şehirdeki tek oyun değil. Kısa bir süre önce Runway, “Gen-2″yi piyasaya sürdü ve daha önce Meta ve Google’ın ilk text2video araştırma projelerini ele aldık.
Will Smith’in spagetti yemesi viral bir hit haline geldiğinden beri, İnternet aşağıdaki gibi takiplerle süslendi: Scarlett Johansson ve spagetti yiyen Joe Biden. Smith’in köfte yemesi bile var, bu video belki de gerçekten dehşet vericidir. Ama yine de bir şekilde harika – mükemmel bir gelecek mem yemi.
Tabii ki, bu text2video araçlarının çıktıları fazla gerçekçi hale geldiğinde, uğraşmamız gereken başka sorunlarımız olacak—muhtemelen derin sosyal ve kültürel sorunlar. Ama şimdilik, ModelScope’un kusurlu, korkunç görkeminin tadını çıkaralım. Şimdiden özür dileriz.