Cuma günü Meta, “10 kat daha küçük” olmasına rağmen OpenAI’nin GPT-3 modelinden daha iyi performans gösterebileceğini iddia ettiği LLaMA-13B adlı yapay zeka destekli yeni bir büyük dil modelini (LLM) duyurdu. Daha küçük boyutlu AI modelleri, PC’ler ve akıllı telefonlar gibi cihazlarda yerel olarak ChatGPT tarzı dil yardımcılarının çalıştırılmasına yol açabilir. “Büyük Dil Modeli Meta AI” veya kısaca LLAMA adı verilen yeni bir dil modelleri ailesinin parçasıdır.
LLaMA dil modelleri koleksiyonu, boyut olarak 7 milyar ila 65 milyar parametre arasında değişir. Karşılaştırıldığında, ChatGPT’nin arkasındaki temel model olan OpenAI’nin GPT-3 modeli 175 milyar parametreye sahiptir.
Meta, LLaMA modellerini Common Crawl, Wikipedia ve C4 gibi halka açık veri kümelerini kullanarak eğitti; bu, firmanın modeli ve ağırlıkları açık kaynak olarak potansiyel olarak yayınlayabileceği anlamına gelir. Bu, şimdiye kadar yapay zeka yarışındaki Büyük Teknoloji oyuncularının en güçlü yapay zeka teknolojilerini kendilerine sakladıkları bir sektörde çarpıcı yeni bir gelişme.
“Chinchilla, PaLM veya GPT-3’ün aksine, yalnızca halka açık veri kümelerini kullanıyoruz, bu da çalışmalarımızı açık kaynakla uyumlu ve yeniden üretilebilir hale getiriyor, mevcut modellerin çoğu ise ya halka açık olmayan ya da belgelenmemiş verilere dayanıyor.” tweet attı proje üyesi Guillaume Lample.
Bugün, 7B ila 65B parametreleri arasında değişen 4 temel model olan LLaMA’yı piyasaya sürüyoruz.
LLaMA-13B, çoğu kıyaslamada OPT ve GPT-3 175B’den daha iyi performans gösterir. LLaMA-65B, Chinchilla 70B ve PaLM 540B ile rekabet halindedir.
Tüm modellerin ağırlıkları açıktır ve https://t.co/q51f2oPZlE adresinde mevcuttur.
1/n pic.twitter.com/DPyJFBfWEq– Guillaume Lample (@GuillaumeLample) 24 Şubat 2023
Meta, LLaMA modellerini “temel modeller” olarak adlandırıyor; bu, OpenAI’nin ChatGPT’yi GPT-3 temelinden oluşturmasına benzer şekilde, firmanın modellerin teknolojiden yola çıkarak geleceğin, daha rafine yapay zeka modellerinin temelini oluşturmasını amaçladığı anlamına geliyor. Şirket, LLaMA’nın doğal dil araştırmalarında ve “soru yanıtlama, doğal dil anlama veya okuduğunu anlama, mevcut dil modellerinin kapasitelerini ve sınırlamalarını anlama” gibi potansiyel olarak güç uygulamalarında yararlı olacağını umuyor.
En üst düzey LLaMA modeli (LLaMA-65B, 65 milyar parametre ile), rakip AI laboratuvarları DeepMind, Google ve OpenAI’nin benzer teklifleriyle tepeden tırnağa giderken, tartışmasız en ilginç gelişme LLaMA’dan geliyor. -13B modeli, daha önce de belirtildiği gibi, tek bir GPU üzerinde çalışırken GPT-3’ten daha iyi performans gösterebileceği bildiriliyor. GPT-3 türevleri için veri merkezi gereksinimlerinin aksine LLaMA-13B, yakın gelecekte tüketici düzeyinde donanımda ChatGPT benzeri performansın kapılarını aralıyor.
Parametre boyutu yapay zekada çok önemlidir. Parametre, bir makine öğrenimi modelinin girdi verilerine dayalı tahminler veya sınıflandırmalar yapmak için kullandığı bir değişkendir. Bir dil modelindeki parametrelerin sayısı, performansında önemli bir faktördür; daha büyük modeller genellikle daha karmaşık görevleri yerine getirebilir ve daha tutarlı çıktılar üretebilir. Bununla birlikte, daha fazla parametre daha fazla yer kaplar ve çalışması için daha fazla bilgi işlem kaynağı gerektirir. Bu nedenle, bir model daha az parametreyle başka bir modelle aynı sonuçları elde edebiliyorsa, verimlilikte önemli bir kazanç anlamına gelir.
Bağımsız yapay zeka araştırmacısı Simon Willison, “Artık bir veya iki yıl içinde kendi (sınıfın en iyisi) cep telefonlarımızda ve dizüstü bilgisayarlarımızda ChatGPT’nin özelliklerinin önemli bir kısmına sahip dil modellerini çalıştıracağımızı düşünüyorum.” Meta’nın yeni AI modellerinin etkisini analiz eden Mastodon iş parçacığı.
Şu anda, LLaMA’nın basitleştirilmiş bir sürümü GitHub’da mevcuttur. Tam kodu ve ağırlıkları (bir sinir ağında “öğrenilmiş” eğitim verileri) almak için Meta, ilgili araştırmacıların erişim talep edebileceği bir form sağlar. Meta, şu anda modelin ve ağırlıkların daha geniş bir sürümü için planlarını açıklamadı.