Aralık 25, 2024

Manavgat Son Haber

Türkiye'den ve dünyadan siyaset, iş dünyası, yaşam tarzı, spor ve daha pek çok konuda son haberler

AI kalp krizi tahmini modu, ‘kodsuz’ araçlarla gevşek

AI kalp krizi tahmini modu, 'kodsuz' araçlarla gevşek
Ah, kolay düğme!
yakınlaştır / Ah, kolay düğme!

Oric Lawson | Getty Resimleri

Bu, “kodsuz” makine öğrenimi keşfimizin ikinci bölümü. İlk makalemizdesorun setimizi ortaya koyduk ve iş analistleri için tasarlanmış yüksek düzeyde otomatikleştirilmiş bir makine öğrenimi aracının, aşağıdakilerin kalitesine yakın uygun maliyetli sonuçlar sağlayıp sağlayamayacağını test etmek için kullanacağımız verileri tartıştık. Daha fazla kod yoğun yöntemler Biraz insan odaklı veri bilimi içerir.

Bu makaleyi okumadıysanız, en azından geri dönün. gözden geçir. Hazırsanız, “normal” (yani en kod yoğun) makine öğrenme koşulları altında kalp krizi verilerimizle ne yapacağımızı gözden geçirelim ve ardından hepsini bir kenara atıp “kolay” düğmesine basalım.

Daha önce tartışıldığı gibi, Budapeşte’deki Cleveland Clinic ve Macar Kardiyoloji Enstitüsü’nde (artı verileri kalite nedenleriyle attığımız diğer yerlerde) yapılan bir çalışmadan elde edilen bir dizi kalp sağlığı verisiyle çalışıyoruz. Tüm bu veriler şurada mevcuttur: depo GitHub’da oluşturduk, ancak orijinal biçimi Veri deposu California-Irvine Üniversitesi tarafından makine öğrenimi projeleri için sürdürüldü. Veri setinin iki versiyonunu kullanıyoruz: Cleveland Clinic’ten alınan 303 hasta kaydından oluşan daha küçük, daha eksiksiz bir versiyon ve HGI verilerini içeren ancak daha küçük gruptan iki tür verinin eksik olduğu daha büyük bir veritabanı (597 hasta).

Macar verilerinin eksik olan iki alanı önemli olabilir gibi görünüyor, ancak Cleveland Clinic verilerinin kendisi bazı ML uygulamaları için çok küçük olabilir, bu nedenle temellerimizi kapsamaya çalışacağız.

plan

Eğitim ve test için birden fazla veri seti ile, öğütmeye başlama zamanı. Bunu veri bilimcilerin genellikle yaptığı şekilde (ve geçen yıl denediğimiz şekilde) yapsaydık, şunları yapardık:

  1. Verileri bir eğitim seti ve bir test seti olarak ayırın
  2. Modeli oluşturmak için eğitim verilerini mevcut bir algoritma türüyle kullanın
  3. Doğruluğunu doğrulamak için test seti ile modeli kontrol edin

Tüm bunları, Jupyter not defterinde kodlayarak ve kabul edilebilir bir doğruluk elde edene kadar modeli değiştirerek yapabiliriz (geçen yıl yaptığımız gibi, sürekli bir döngüde). Ancak bunun yerine önce iki farklı yöntem deneyeceğiz:

  • AWS’nin Sagemaker Canvas ile “kodsuz” bir yaklaşım: Canvas, verileri bir bütün olarak alır, otomatik olarak eğitim ve teste ayırır ve tahmine dayalı bir algoritma oluşturur
  • Sagemaker Studio Jumpstart ve AutoML kullanan başka bir “no-/düşük kod” yaklaşımı: AutoML, Canvas’ın ardındakilerin çoğudur; Verileri değerlendirir ve en iyisini belirlemek için bir dizi farklı algoritma türünü dener.

Bunu yaptıktan sonra, veri bilimcilerin bu veri seti ile halihazırda denediği, bazıları yüzde 90’ın üzerinde doğruluk iddiasında bulunan, savaşta test edilmiş birçok makine öğrenimi yönteminden birini kullanarak geçiş yapacağız.

Bu yöntemlerin son ürünü, veri noktalarına dayalı tahmine dayalı bir sorgu çalıştırmak için kullanabileceğimiz bir algoritma olmalıdır. Ancak gerçek çıktı, tamamlama süresi, doğruluk ve hesaplama süresinin maliyeti açısından her bir yaklaşımın ödünleşimlerine bir bakış olacaktır. (Son testimizde, AutoML’nin kendisi pratik olarak tüm AWS hesabı kredi bakiyesini havaya uçurdu.)