Salı günü OpenAI, kusurlu da olsa eski GPT-2 modelindeki nöronların davranışlarına ilişkin açıklamalar yazmak için GPT-4 dil modelini kullanan bir tekniği detaylandıran yeni bir araştırma makalesi yayınladı. Bu, yapay zekanın sinir ağlarının yaptıkları çıktıları neden yarattığını açıklamaya çalışan bir alanı olan “yorumlanabilirlik” için ileriye doğru atılmış bir adımdır.
Büyük dil modelleri (LLM’ler) teknoloji dünyasını fethederken, yapay zeka araştırmacıları, kaputun altındaki işlevleri ve yetenekleri hakkında hala pek bir şey bilmiyor. OpenAI’nin makalesinin ilk cümlesinde yazarlar şöyle yazıyor: “Dil modelleri daha yetenekli hale geldi ve daha geniş çapta konuşlandırıldı, ancak nasıl çalıştıklarını anlamıyoruz.”
Dışarıdan bakanlar için bu, yalnızca LLM’lerden elde edilen gelire bağlı olmakla kalmayan, aynı zamanda onları insan ötesi muhakeme becerileri seviyelerine ulaştırmayı uman bir şirketin şaşırtıcı bir itirafı gibi gelebilir.
Ancak, bir sinir ağının bireysel nöronlarının çıktılarını üretmek için birlikte nasıl çalıştığını tam olarak “bilmeme” özelliğinin iyi bilinen bir adı vardır: kara kutu. Ağ girdilerini (soru gibi) beslersiniz ve çıktılar alırsınız (cevap gibi), ancak aralarında (“kara kutunun” içinde) ne olduğu bir muammadır.
Kara kutunun içine göz atma girişiminde bulunan OpenAI araştırmacıları, GPT-2 gibi çok daha az karmaşık bir dil modelindeki nöronların davranışları için doğal dil açıklamaları oluşturmak ve değerlendirmek için GPT-4 dil modelini kullandı. İdeal olarak, yorumlanabilir bir AI modeline sahip olmak, bazılarının “AI hizalaması” dediği daha geniş bir hedefe katkıda bulunmaya yardımcı olur ve AI sistemlerinin amaçlandığı gibi davranmasını ve insani değerleri yansıtmasını sağlar. OpenAI, yorumlama sürecini otomatikleştirerek, milyarlarca parametreye sahip daha büyük sinir ağları için ölçeklenemeyen geleneksel manuel insan denetiminin sınırlamalarının üstesinden gelmeyi amaçlıyor.
OpenAI’nin tekniği “metindeki hangi kalıpların bir nöronun harekete geçmesine neden olduğunu açıklamaya çalışır.” Metodolojisi üç adımdan oluşur:
- GPT-4 kullanarak nöronun aktivasyonlarını açıklayın
- GPT-4 kullanarak nöron aktivasyon davranışını simüle edin
- Simüle edilmiş aktivasyonları gerçek aktivasyonlarla karşılaştırın.
OpenAI’nin yönteminin nasıl çalıştığını anlamak için birkaç terim bilmeniz gerekir: nöron, devre ve dikkat kafası. Bir sinir ağında nöron, tıpkı küçük bir beyin hücresinin aldığı sinyallere göre karar vermesi gibi, bilgiyi alan, işleyen ve bir çıktı üreten küçük bir karar verme birimi gibidir. Bir sinir ağındaki bir devre, bir sorunu çözmek için işbirliği yapan ve iletişim kuran bir grup insana benzer şekilde, birlikte çalışan, bilgi aktaran ve toplu kararlar alan birbirine bağlı nöronlardan oluşan bir ağ gibidir. Ve bir dikkat başlığı, bir dil modelinin bir cümlenin belirli kelimelerine veya bölümlerine daha fazla dikkat etmesine yardımcı olan ve metni işlerken önemli bilgileri daha iyi anlamasına ve yakalamasına olanak tanıyan bir spot ışığı gibidir.
GPT-4, yorumlanması gereken modeldeki belirli nöronları ve dikkat kafalarını tanımlayarak, bu bileşenlerin işlevi veya rolü için insanlar tarafından okunabilir açıklamalar oluşturur. Ayrıca, OpenAI’nin “bir dil modelinin doğal dili kullanarak nöron aktivasyonlarını sıkıştırma ve yeniden yapılandırma yeteneğinin bir ölçüsü” olarak adlandırdığı bir açıklama puanı oluşturur. Araştırmacılar, puanlama sisteminin ölçülebilir doğasının, sinir ağı hesaplamalarını insanlar için anlaşılır hale getirmeye yönelik ölçülebilir ilerlemeye izin vereceğini umuyor.
Peki ne kadar iyi çalışıyor? Şu anda, o kadar iyi değil. Test sırasında OpenAI, tekniğini benzer değerlendirmeleri manuel olarak yapan bir insan yükleniciyle karşılaştırdı ve hem GPT-4’ün hem de insan yüklenicinin “mutlak terimlerle düşük puan aldığını”, yani nöronları yorumlamanın zor olduğunu buldular.
OpenAI tarafından bu başarısızlık için öne sürülen bir açıklama, nöronların “çok anlamlı” olabileceğidir; bu, çalışma bağlamında tipik bir nöronun birden çok anlam sergileyebileceği veya birden çok kavramla ilişkilendirilebileceği anlamına gelir. Sınırlamalarla ilgili bir bölümde, OpenAI araştırmacıları hem polisemantik nöronları hem de “yabancı özellikleri” yöntemlerinin sınırlamaları olarak tartışıyorlar:
Ayrıca, dil modelleri, insanların kelimelere sahip olmadığı yabancı kavramları temsil edebilir. Bunun nedeni, dil modellerinin farklı şeyleri önemsemesi olabilir, örneğin bir sonraki belirteç tahmin görevleri için yararlı olan istatistiksel yapılar veya model, örneğin farklı alanlardaki bazı benzer kavramlar ailesi gibi insanların henüz keşfetmediği doğal soyutlamaları keşfettiği için.
Diğer sınırlamalar arasında, yoğun işlem yapılması ve yalnızca kısa doğal dil açıklamaları sağlanması yer alır. Ancak OpenAI araştırmacıları, gelecekte tekniklerini geliştirirken, hem makine meditasyonlu yorumlanabilirlik hem de yorumlanabilirlikteki gelişmeleri ölçmenin ölçülebilir araçları için bir çerçeve oluşturdukları konusunda hala iyimserler. AI modelleri daha gelişmiş hale geldikçe, OpenAI araştırmacıları, oluşturulan açıklamaların kalitesinin artacağını ve bu karmaşık sistemlerin iç işleyişine ilişkin daha iyi içgörüler sunacağını umuyor.
OpenAI, araştırma makalesini, metnin vurgulanan kısımlarını ve bunların belirli nöronlara nasıl karşılık geldiğini gösteren, her adımın örnek dökümlerini içeren etkileşimli bir web sitesinde yayınladı. Bunlara ek olarak. OpenAI, GitHub’da “Otomatik yorumlanabilirlik” kodunu ve GPT-2 XL nöronlarını ve açıklama veri kümelerini sağladı.
ChatGPT’nin neden bir şeyler uydurduğunu tam olarak anlarlarsa, tüm çabaya değecektir.