Pazartesi, Şubat 10, 2025
Ana SayfaTeknoloji HaberleriGoogle'ın PaLM-E'si, komutları alan genelci bir robot beyindir

Google’ın PaLM-E’si, komutları alan genelci bir robot beyindir

PaLM-E tarafından kontrol edilen bir robotik kol, bir tanıtım videosunda bir paket fişe uzanıyor.
Büyüt / PaLM-E tarafından kontrol edilen bir robotik kol, bir tanıtım videosunda bir paket fişe uzanıyor.

Google Araştırması

Pazartesi günü, Google ve Berlin Teknik Üniversitesi’nden bir grup yapay zeka araştırmacısı, robotik kontrol için görüş ve dili bütünleştiren 562 milyar parametreye sahip çok modlu, somutlaştırılmış bir görsel dil modeli (VLM) olan PaLM-E’yi tanıttı. Şimdiye kadar geliştirilmiş en büyük VLM olduğunu ve yeniden eğitime ihtiyaç duymadan çeşitli görevleri yerine getirebileceğini iddia ediyorlar.

Google’a göre, “çekmeceden pirinç cipslerini bana getir” gibi üst düzey bir komut verildiğinde, PaLM-E kollu bir mobil robot platformu için bir eylem planı oluşturabilir (Google Robotics tarafından geliştirilmiştir) ve uygulayabilir. eylemlerin kendisi.

PaLM-E bunu, önceden işlenmiş bir sahne temsiline ihtiyaç duymadan robotun kamerasından gelen verileri analiz ederek yapar. Bu, bir insanın verileri önceden işlemesi veya açıklama eklemesi ihtiyacını ortadan kaldırır ve daha otonom robotik kontrole izin verir.

Google tarafından sağlanan bir demo videoda PaLM-E, robotun kamerasından gelen görsel geri bildirimin yanı sıra birden fazla planlama adımı içeren “çekmeceden pirinç cipslerini bana getir” işlemini yürütür.

Aynı zamanda dayanıklıdır ve çevresine tepki verebilir. Örneğin, PaLM-E modeli bir robotu mutfaktan cips torbası almasına yönlendirebilir ve kontrol döngüsüne entegre edilmiş PaLM-E ile görev sırasında meydana gelebilecek kesintilere karşı dayanıklı hale gelir. Bir video örneğinde, bir araştırmacı çipleri robottan alır ve hareket ettirir, ancak robot çipleri bulur ve tekrar alır.

İçinde başka bir örnek, aynı PaLM-E modeli, daha önce insan rehberliği gerektiren karmaşık dizilere sahip görevler aracılığıyla bir robotu otonom olarak kontrol eder. Google’ın araştırma raporu, PaLM-E’nin talimatları nasıl eyleme dönüştürdüğünü açıklıyor:

PaLM-E’nin zorlu ve çeşitli mobil manipülasyon görevlerindeki performansını gösteriyoruz. Ahn ve diğerlerindeki kurulumu büyük ölçüde takip ediyoruz. (2022), burada robotun bir insan tarafından verilen talimata dayalı olarak bir dizi navigasyon ve manipülasyon eylemi planlaması gerekiyor. Örneğin, “İçeceğimi döktüm, temizlemek için bana bir şeyler getirir misin?” talimatı verildiğinde, robotun “1. Sünger bul, 2. Süngeri al, 3. Getir” şeklinde bir sıralama yapması gerekiyor. kullanıcıya, 4. Süngeri yere koyun.” Bu görevlerden ilham alarak, PaLM-E’nin somutlaştırılmış muhakeme yeteneklerini test etmek için 3 kullanım durumu geliştiriyoruz: satın alma tahmini, başarısızlık tespiti ve uzun ufuklu planlama. Düşük seviyeli politikalar, RGB görüntüsünü ve doğal dil talimatını alan ve son efektör kontrol komutlarını çıkaran bir transformatör modeli olan RT-1’den (Brohan ve diğerleri, 2022) alınmıştır.

PaLM-E bir sonraki belirteç tahmincisidir ve Google’ın “PaLM” (ChatGPT’nin arkasındaki teknolojiye benzer) adı verilen mevcut geniş dil modelini (LLM) temel aldığı için “PaLM-E” olarak adlandırılır. Google, duyusal bilgi ve robotik kontrol ekleyerek PaLM’yi “somutlaştırdı”.

Bir dil modeline dayandığından PaLM-E, görüntüler veya sensör verileri gibi sürekli gözlemler alır ve bunları dil belirteçleriyle aynı boyutta olan bir dizi vektöre kodlar. Bu, modelin duyusal bilgileri, dili işlediği şekilde “anlamasına” olanak tanır.

“Bana yeşil bir yıldız getirin” talimatını izleyen, PaLM-E tarafından yönlendirilen bir robotu gösteren, Google tarafından sağlanan bir demo video. Araştırmacılar, yeşil yıldızın “bu robotun doğrudan maruz kalmadığı bir nesne olduğunu” söylüyor.

PaLM-E, RT-1 robotik transformatörüne ek olarak, Google’ın Şubat ayında ortaya çıkan bir görüntü transformatörü modeli olan ViT-22B ile ilgili önceki çalışmasından yararlanıyor. ViT-22B, görüntü sınıflandırma, nesne algılama, semantik bölümleme ve görüntü alt yazısı gibi çeşitli görsel görevler konusunda eğitilmiştir.

Google Robotics, sinir ağlarıyla robotik kontrol üzerinde çalışan tek araştırma grubu değil. Bu özel çalışma, Microsoft’un benzer şekilde robotik kontrol için görsel verileri ve büyük dil modellerini birleştirmeyi deneyen yakın tarihli “ChatGPT for Robotics” makalesine benziyor.

Robotik bir yana, Google araştırmacıları, PaLM-E’nin çekirdeği olarak büyük bir dil modeli kullanmaktan kaynaklanan birkaç ilginç etki gözlemlediler. Birincisi, öğrendiği bilgi ve becerileri bir görevden diğerine aktarabilmesi anlamına gelen “pozitif aktarım” sergiliyor ve bu da tek görevli robot modellerine kıyasla “önemli ölçüde daha yüksek performans” sağlıyor.

ayrıca onlar gözlenen model ölçeğinde bir trend: “Dil modeli ne kadar büyük olursa, görsel dil ve robotik görevler üzerine eğitim verirken dil becerilerini o kadar fazla korur; niceliksel olarak, 562B PaLM-E modeli neredeyse tüm dil yeteneklerini korur.”

Ve araştırmacılar iddia PaLM-E’nin çok modlu düşünce zinciri muhakemesi (modelin hem dil hem de görsel bilgileri içeren bir dizi girdiyi analiz etmesine izin verir) ve çoklu görüntü çıkarımı (bir çıkarım veya tahmin yapmak için girdi olarak birden çok görüntüyü kullanma) gibi ortaya çıkan yetenekler sergilediği ) yalnızca tek görüntülü istemler konusunda eğitilmiş olmasına rağmen. Bu anlamda PaLM-E, derin öğrenme modelleri zaman içinde daha karmaşık hale geldikçe ortaya çıkan sürpriz trendini sürdürecek gibi görünüyor.

Google araştırmacıları, ev otomasyonu veya endüstriyel robotik gibi gerçek dünya senaryoları için daha fazla PaLM-E uygulaması keşfetmeyi planlıyor. Ve PaLM-E’nin çok modlu akıl yürütme ve somutlaştırılmış yapay zeka hakkında daha fazla araştırmaya ilham vermesini umuyorlar.

“Multimodal”, şirketler görünüşte bir insan gibi genel görevleri yerine getirebilecek yapay genel zekaya ulaştıkça daha fazla duyacağımız moda bir kelimedir.

RELATED ARTICLES

Popüler Konular