Pazar, Haziran 23, 2024
Ana SayfaTeknoloji HaberleriMakine öğrenimi şu sonuca varmıştır: "Kodsuz" araçlar manuel analizi yendi mi?

Makine öğrenimi şu sonuca varmıştır: “Kodsuz” araçlar manuel analizi yendi mi?

Makine öğrenimi şu sonuca varmıştır:

Aurich Lawson | Getty Resimleri

Ben bir veri bilimcisi değilim. Ve bir Jupyter not defterinde yolumu bilsem ve iyi miktarda Python kodu yazmış olsam da, bir makine öğrenimi uzmanına yakın olduğumu iddia etmiyorum. Dolayısıyla, kodsuz/düşük kodlu makine öğrenimi deneyimizin ilk bölümünü gerçekleştirdiğimde ve bir modelde yüzde 90 doğruluk oranından daha iyi bir sonuç aldığımda, yanlış bir şey yaptığımdan şüphelendim.

Şimdiye kadar takip etmediyseniz, sizi bu serideki ilk iki makaleye yönlendirmeden önce kısa bir inceleme yapalım. Geri kalanımız için makine öğrenimi araçlarının ne kadar geliştiğini görmek ve geçen yıl bana verilen kazanılamaz görev için kendimi kurtarmak için, University of University’deki bir arşivden çok yıpranmış bir kalp krizi veri seti aldım. California-Irvine ve Amazon Web Services’in düşük kodlu ve kodsuz araçlarının “kolay düğmesini” kullanarak veri bilimi öğrencilerinin sonuçlarından daha iyi performans göstermeye çalıştı.

Bu deneyin bütün amacı şunu görmekti:

  • Göreceli bir aceminin bu araçları etkili ve doğru bir şekilde kullanıp kullanamayacağı
  • Araçların, ne halt ettiklerini bilen birini bulup onlara teslim etmekten daha uygun maliyetli olup olmadığı

Bu, makine öğrenimi projelerinin genellikle nasıl gerçekleştiğinin tam olarak gerçek bir resmi değil. Ve bulduğum gibi, Amazon Web Services’in sunduğu “kodsuz” seçeneğin (SageMaker Canvas) SageMaker Studio’nun daha fazla veri bilimi yaklaşımıyla el ele çalışması amaçlanmıştır. Ancak Canvas, Studio’nun düşük kod yaklaşımıyla yapabildiklerimden daha iyi performans gösterdi – muhtemelen veri işleme konusunda beceriksiz ellerim yüzünden.

(Önceki iki makaleyi okumamış olanlar için, şimdi yetişme zamanı: İşte birinci kısım ve işte ikinci kısım.)

Robotun çalışmasının değerlendirilmesi

Canvas, Cleveland Clinic ve Macaristan Kardiyoloji Enstitüsü’nden 590’dan fazla hasta verisinden oluşan tam yapıyla oluşturduğum modeli açan paylaşılabilir bir bağlantıyı dışa aktarmama izin verdi. Bu bağlantı bana, veri bilimi ve makine öğrenimi deneyleri yapmak için Jupyter tabanlı bir platform olan Studio ile Canvas’ın çok kara kutusunun içinde neler olup bittiğine dair biraz daha fikir verdi.

Adından da anlaşılacağı gibi, Jupyter Python’a dayanmaktadır. Göreve bağlı olarak farklı Python uygulamalarına dayalı çekirdekleri döndürmenize olanak tanıyan bir kapsayıcı ortamına yönelik web tabanlı bir arabirimdir.

Studio'da bulunan farklı çekirdek kapsayıcılarının örnekleri.

Studio’da bulunan farklı çekirdek kapsayıcılarının örnekleri.

Çekirdekler, Python Veri Analizi Kitaplığı (pandalar) ve SciKit-Learn (sklearn) gibi kod odaklı keşifler yaparken projenin gerektirdiği modüllerle doldurulabilir. AWS işlem süresinden tasarruf etmek için ilk veri analizimin çoğunu yapmak için yerel bir Jupyter Lab sürümünü kullandım.

Canvas bağlantısıyla oluşturulan Studio ortamı, Canvas’ın ürettiği model hakkında fikir veren önceden oluşturulmuş bazı içerikler içeriyordu; bunlardan bazıları son makalede kısaca tartışıldı:

Studio'daki en iyi Kanvas sergisinden model ayrıntıları.
büyüt / Studio’daki en iyi Kanvas sergisinden model ayrıntıları.

Bazı ayrıntılar, Canvas tarafından oluşturulan modelin en iyi ayarlanmış sürümü tarafından kullanılan hiperparametreleri içeriyordu:

Model hiperparametreleri.
büyüt / Model hiperparametreleri.

Hiperparametreler, doğruluğu artırmak için algoritma tarafından AutoML’nin hesaplamalarda yaptığı ince ayarlardır ve ayrıca bazı temel temizlik hizmetleri (SageMaker örneği parametreleri, ayar metriği (“F1,”) ve diğer girdiler) ve diğer girdilerdir. Bunların hepsi bizimki gibi ikili bir sınıflandırma için oldukça standart.

Studio’daki modele genel bakış, kullanılan algoritma (XGBoost) ve SHAP değerleri adı verilen bir şeyle derecelendirilen sütunların her birinin göreli önemi dahil olmak üzere Canvas tarafından üretilen model hakkında bazı temel bilgiler sağladı. SHAP, her bir veri özelliğinin model çıktısındaki bir değişikliğe katkısını çıkarmak için oyun teorisine dayalı bir yöntem olan “SHapley Additive ExPlanations” anlamına gelen gerçekten korkunç bir kısaltmadır. “Elde edilen maksimum kalp atış hızı”nın model üzerinde ihmal edilebilir bir etkisi olduğu ortaya çıktı, talasemi (“uzun”) ve anjiyogram sonuçlarının (“caa”) -önemli ölçüde eksik veriye sahip olduğumuz veri noktalarının- benim istediğimden daha fazla etkisi oldu. . Görünüşe göre onları bırakamazdım. Bu yüzden modelin nasıl dayandığı hakkında daha ayrıntılı bilgi almak için model için bir performans raporu indirdim:

RELATED ARTICLES

Popüler Konular