Bu, “kodsuz” makine öğrenimi keşfimizin ikinci bölümü. İlk makalemizdesorun setimizi ortaya koyduk ve iş analistleri için tasarlanmış yüksek düzeyde otomatikleştirilmiş bir makine öğrenimi aracının, aşağıdakilerin kalitesine yakın uygun maliyetli sonuçlar sağlayıp sağlayamayacağını test etmek için kullanacağımız verileri tartıştık. Daha fazla kod yoğun yöntemler Biraz insan odaklı veri bilimi içerir.
Bu makaleyi okumadıysanız, en azından geri dönün. gözden geçir. Hazırsanız, “normal” (yani en kod yoğun) makine öğrenme koşulları altında kalp krizi verilerimizle ne yapacağımızı gözden geçirelim ve ardından hepsini bir kenara atıp “kolay” düğmesine basalım.
Daha önce tartışıldığı gibi, Budapeşte’deki Cleveland Clinic ve Macar Kardiyoloji Enstitüsü’nde (artı verileri kalite nedenleriyle attığımız diğer yerlerde) yapılan bir çalışmadan elde edilen bir dizi kalp sağlığı verisiyle çalışıyoruz. Tüm bu veriler şurada mevcuttur: depo GitHub’da oluşturduk, ancak orijinal biçimi Veri deposu California-Irvine Üniversitesi tarafından makine öğrenimi projeleri için sürdürüldü. Veri setinin iki versiyonunu kullanıyoruz: Cleveland Clinic’ten alınan 303 hasta kaydından oluşan daha küçük, daha eksiksiz bir versiyon ve HGI verilerini içeren ancak daha küçük gruptan iki tür verinin eksik olduğu daha büyük bir veritabanı (597 hasta).
Macar verilerinin eksik olan iki alanı önemli olabilir gibi görünüyor, ancak Cleveland Clinic verilerinin kendisi bazı ML uygulamaları için çok küçük olabilir, bu nedenle temellerimizi kapsamaya çalışacağız.
plan
Eğitim ve test için birden fazla veri seti ile, öğütmeye başlama zamanı. Bunu veri bilimcilerin genellikle yaptığı şekilde (ve geçen yıl denediğimiz şekilde) yapsaydık, şunları yapardık:
- Verileri bir eğitim seti ve bir test seti olarak ayırın
- Modeli oluşturmak için eğitim verilerini mevcut bir algoritma türüyle kullanın
- Doğruluğunu doğrulamak için test seti ile modeli kontrol edin
Tüm bunları, Jupyter not defterinde kodlayarak ve kabul edilebilir bir doğruluk elde edene kadar modeli değiştirerek yapabiliriz (geçen yıl yaptığımız gibi, sürekli bir döngüde). Ancak bunun yerine önce iki farklı yöntem deneyeceğiz:
- AWS’nin Sagemaker Canvas ile “kodsuz” bir yaklaşım: Canvas, verileri bir bütün olarak alır, otomatik olarak eğitim ve teste ayırır ve tahmine dayalı bir algoritma oluşturur
- Sagemaker Studio Jumpstart ve AutoML kullanan başka bir “no-/düşük kod” yaklaşımı: AutoML, Canvas’ın ardındakilerin çoğudur; Verileri değerlendirir ve en iyisini belirlemek için bir dizi farklı algoritma türünü dener.
Bunu yaptıktan sonra, veri bilimcilerin bu veri seti ile halihazırda denediği, bazıları yüzde 90’ın üzerinde doğruluk iddiasında bulunan, savaşta test edilmiş birçok makine öğrenimi yönteminden birini kullanarak geçiş yapacağız.
Bu yöntemlerin son ürünü, veri noktalarına dayalı tahmine dayalı bir sorgu çalıştırmak için kullanabileceğimiz bir algoritma olmalıdır. Ancak gerçek çıktı, tamamlama süresi, doğruluk ve hesaplama süresinin maliyeti açısından her bir yaklaşımın ödünleşimlerine bir bakış olacaktır. (Son testimizde, AutoML’nin kendisi pratik olarak tüm AWS hesabı kredi bakiyesini havaya uçurdu.)
. “Çıldırtıcı derecede alçakgönüllü bira ustası. Gururlu domuz pastırması evangelisti. Tam bir twitter bilgini. Problem çözücü. Dost düşünür.”
More Stories
Visions Of Mana, iki kat daha uzun sürebilen 30 saatlik bir RPG’dir
Sızıntılar, iddia edilen PS5 Pro cihazının adını ve tasarımını ortaya koyuyor
iPhone 17 Pro Max, iPhone 17 Pro ve diğer modellere göre daha fazla rastgele bellek ve daha iyi bir soğutma sistemiyle gelecek.