İçeriğe geç

Veri Madenciliği #DersNotlarım – 3

Veri Madenciliği Nedir?

Yeni gelen veri hakkında, eski verileri kullanarak bir tahminde bulunmaktır.
Amaç öngörüde bulunmaktır.

Kullanıldığı temel alanlar:

  • Kredi kartı ödeme güvenliği
  • Emlak kredisi ödeyebilme niteliği
  • Hava tahmini
  • Müşterilerin eski alışveriş bilgilerinden, yeni alabileceği ürünlerin tespiti
  • Aboneliği terk edebilecek potansiyel müşterileri bulma
  • Sosyal medya duygu analizi

Veri Madenciliği Yöntemleri

  • Regression
  • Classifacation
  • Clustring
  • Assocition Rule Mining

Veri madenciliği ileriye dönük tahminde nasıl bulunuyor? Nasıl bir yol izliyor ?

Bir algoritmanın tahminde bulunabilmesi için eğitim/test adımlarından geçmesi gerekir. Bu anlamda veri madenciliği algoritmalarını temel iki kategoriye ayırabiliriz.

Öğreticili (Supervisid) Öğrenme ve Öğreticisiz (Unsupervisid) Öğrenme

Şimdi gelelim bu iki öğrenme çeşidine 🙂

1.Öğreticili Öğrenme

Bir algoritma sayısal veya sınıfsal tahmin yapacaksa tanımlayıcı özniteliklerin ağırlığını hedef alarak hedef veri hakkında tahminde bulunur.
Geçmiş verileri kullanarak öz niteliklerle hedef kolon arasında bir ilişkiyi otomatik öğrenir.

Geçmiş verilerden öğrendikleri modeli gelecek verileri kullanarak kestirim yapmaya çalışır.

2.Öğreticisiz Öğrenme

 

 

Sistemin kendi kendini eğitmesi ile bilgiye ulaşılır.
Bir hedefe yönelik eğitilmiyor.
Özniteliklerle tanımlı verilerin vektörel olarak birbirine yakınlığı üzerinden kümler halinde ayrılmasıdır.

 

 

 

 

Algoritmalar kural/model elde etmekte veya özniteliklerin seçiminde ne işe yarar?

Gerçek dünyadaki verilerin bazen binlerce özniteliği olabiliyor. Bu yüzden kuralları bulmak çok kolay olmayabiliyor. Hem performansı arttırmak hem de kestirim kalitesini arttırmak için öznitelik seçim algoritmalarına ve dolayısıyla veri madenciliği algoritmalarına ihtiyaç duyuyoruz.
Algoritma Seçme Kriteleri

  • Tahmin yeteneğini ölçme ölçütleri
  • Zaman optimizasyonu

Veri Madenciliği problemlerinin çözümünde karşılaşılan 2 önemli sorun:

1.Underfitting

Kestirim yeteneği yetersizdir.

Testdeki örneklerin çoğunu yanlış hesaplar.

2.Overfitting

Sistemin aşırı eğitilmesi nedeniyle ezber sonuçlar verir. Test sürecinde mükemmel cevaplar verirken, yeni verilerde kötü sonuçlar verir.

Peki bu sorunlardan nasıl kaçabilirim?
Doğru model hem eğitim verisinde hem de yeni test verisinde arzu edilen sonuçları göstermelidir. Bu sonuçları kontrol etmek için;

  • Eldeki veriyi eğitim/test şeklinde ayırmak.
  • Sentetik veri oluşturmak.
  • Değişik algoritmalarla DENEME yapmak.

 



Tarih:Yazılım/Teknoloji

2 Yorum

  1. İbrahim İbrahim

    Teşekkürler ‘damla’ öğretici bir paylaşım olmuş. Ayrıca font seçimini beğendim.

    • damlakayali damlakayali

      Teşekkür ederim 🙂

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir