Çarşamba, Haziran 19, 2024
Ana SayfaTeknoloji Haberleri"Gerçekten büyük bir anlaşma"—Dolly, ücretsiz, açık kaynaklı, ChatGPT tarzı bir yapay zeka...

“Gerçekten büyük bir anlaşma”—Dolly, ücretsiz, açık kaynaklı, ChatGPT tarzı bir yapay zeka modelidir

Databricks Dolly logosu

veri tuğlaları

Çarşamba günü Databricks, bildirildiğine göre insan tarafından oluşturulan bir veri setinde ince ayarı yapılmış, ticari kullanım için ilk açık kaynaklı, yönergeleri izleyen büyük dil modeli (LLM) olan Dolly 2.0’ı piyasaya sürdü. Homebrew ChatGPT rakipleri için zorlayıcı bir başlangıç ​​noktası görevi görebilir.

Databricks, 2013 yılında Apache Spark’ın yaratıcıları tarafından kurulmuş bir Amerikan kurumsal yazılım şirketidir. Büyük veri ve makine öğrenimi için Spark ile çalışmak üzere web tabanlı bir platform sağlarlar. Dolly lansman blog gönderisine göre Databricks, Dolly’yi piyasaya sürerek kuruluşların “API erişimi için ödeme yapmadan veya üçüncü taraflarla veri paylaşmadan” LLM’ler oluşturmasına ve özelleştirmesine izin vermeyi umuyor.

Yeni 12 milyar parametreli modeli Dolly 2.0, EleutherAI’nin pythia model ailesini temel alır ve Databricks çalışanlarından toplanan eğitim verilerine (“databricks-dolly-15k” adı verilir) özel olarak ince ayar yapılmıştır. Bu kalibrasyon, OpenAI’nin, ince ayar yapılmamış ham bir LLM’den ziyade soruları yanıtlamada ve bir sohbet robotu olarak diyaloga girmede daha iyi olan ChatGPT ile daha uyumlu yetenekler sağlar.

Mart ayında piyasaya sürülen Dolly 1.0, ChatGPT’den (Alpaca sayesinde) çıktı içeren ve OpenAI’nin hizmet şartlarına tabi olan eğitim verileri nedeniyle ticari kullanımla ilgili sınırlamalarla karşılaştı. Bu sorunu çözmek için Databricks ekibi, ticari kullanıma izin verecek yeni bir veri seti oluşturmaya çalıştı.

Bunu yapmak için Databricks, Mart ve Nisan 2023 arasında 5.000’den fazla çalışanından talimat takip davranışının 13.000 gösterimini kitle kaynaklı olarak sağladı. Katılımı teşvik etmek için bir yarışma düzenlediler ve açık Soru-Cevap, kapalı Soru-Cevap dahil olmak üzere veri üretimi için yedi özel görev belirlediler. , Wikipedia’dan bilgi çıkarma ve özetleme, beyin fırtınası, sınıflandırma ve yaratıcı yazma.

Ortaya çıkan veri seti, Dolly’nin model ağırlıkları ve eğitim koduyla birlikte Creative Commons lisansı altında tamamen açık kaynak olarak yayınlandı ve ticari uygulamalar da dahil olmak üzere herkesin veri setini herhangi bir amaçla kullanmasına, değiştirmesine veya genişletmesine olanak sağladı.

Bunun aksine, OpenAI’nin ChatGPT’si, kullanıcıların API erişimi için ödeme yapmasını ve belirli hizmet koşullarına uymasını gerektiren, potansiyel olarak işletmeler ve kuruluşlar için esneklik ve özelleştirme seçeneklerini sınırlayan tescilli bir modeldir. Meta’nın, ağırlıkları BitTorrent’e sızdırıldıktan sonra son zamanlarda bir türev dalgasını ortaya çıkaran kısmen açık kaynaklı bir model (kısıtlı ağırlıklarla) LLaMA, ticari kullanıma izin vermiyor.

Yapay zeka araştırmacısı Simon Willison, Mastodon’da Dolly 2.0’ı “gerçekten büyük bir anlaşma” olarak nitelendirdi. Willison, Dolly de dahil olmak üzere sık sık açık kaynak dil modelleriyle deneyler yapar. Willison bir Mastodon’da “Dolly 2.0 ile ilgili en heyecan verici şeylerden biri, 5.000 Databricks çalışanı tarafından elle yapılan ve bir CC lisansı altında piyasaya sürülen ince ayar talimat setidir” diye yazdı.

Meta’nın yalnızca kısmen açık olan LLaMA modeline gösterilen coşkulu tepki herhangi bir göstergeyse, Dolly 2.0 potansiyel olarak ticari kullanımdaki tescilli sınırlamalar veya kısıtlamalar tarafından engellenmeyen yeni bir açık kaynak dil modelleri dalgasını ateşleyebilir. Dolly’nin gerçek durumuyla ilgili sözler henüz ortalıkta dolaşırken performans yeteneğidaha fazla ayrıntılandırma, yerel tüketici sınıfı makinelerde oldukça güçlü LLM’lerin çalıştırılmasına izin verebilir.

Willison, Ars’a “Dolly 2 iyi olmasa bile, yakında bu eğitim verilerini kullanan bir dizi yeni proje göreceğimizi umuyorum” dedi. “Ve bunlardan bazıları gerçekten yararlı bir şey üretebilir.”

Şu anda Dolly ağırlıkları Hugging Face’te mevcuttur ve databricks-dolly-15k veri seti GitHub’da bulunabilir.

RELATED ARTICLES

Popüler Konular