İçeriğe geç

Veri Madenciliği – #DersNotlarım 4

Öznitelik Nedir?

Verileri tablo halinde düşündüğümüzde her bir satırı tanımlayan kolon/sutün özniteliktir. Örneğin; bir hastalık için hastalığı tanımlayan ayırıcı tahlil sonuçları özniteliktir.

Öznitelik Seçimi (Feature Selection)

Performansın iyileştirilmesi ve hesapsal yükün azaltılması için özniteliklerin bir kısmını alır ayırırız.

Öznitelik seçimi elimizde N tane öznitelik varsa buradan bir şekilde m tane özniteliği ayırarak kalan özniteliklerle sınıflandırma devam etmektir.Bir öznitelik seçimiyle hesapsal yükün azalmasını garanti ederken, tahmin performansı için garanti vermez.

Öznitelik seçiminin avantajları:

  • Öznitelik seçimi veri boyutunu küçültür, hesapsal yükü azaltır.
  • Boyutu küçülen verinin analizi kolaylaşır.
  • Veri karmaşıklığı azalır, sınıfsal/sayısaş kestirim performansı artar.
  • Overfitting probleminden kaçışa yardımcı olur.

Öznitelik seçim algoritmaları ve türleri

  1.  Arama stratejisi, öznitelik havuzunu taramakta kullanılan rastgele, sezgisel arama yöntemleridir.
  2. Öznitelik kalitesini değerlendirme fonksiyonları; filtreleme, zarflayıcı(wrapper).

Filtreler; hızlı çalışmaları ile  büyük öznitelik uzaylarında çalışmayı mümkün kılar.

Öznitelik kümesini elde eden algoritma ile sınıflandırma algoritmları bağımsız çalışır. Bu yaklaşımda;

  1. Önce öznitelik alt kümesi elde edilir.
  2. Bu alt kümenin kalitesi değişik sınıflandırma algoritmalarının başarımı ile elde edilir.

Filtreleme Algoritmaları

  • Gini Index
  • Information gain
  • Chi-squara

gibi yöntemler özniteliklerin değerlendirmesinde kullanılan yöntemlerdir.

AMAÇ; en az öznitelikle en yüksek sınıflandırma başarımı elde etmektir.

Zarflayıcı; bu yaklaşımda arama algoritmasının seçtiği alt küme bir sınıflandırma algoritması ile birlikte çalışır. Bu şekilde sınıflandırma performansını yükselten öznitelikler tutulurken, düşürenler çıkarılır. Bu ekleme çıkarma bir arama algoritması eşliğinde gerçekleşir.

Zarflayıcı yönteminde hem öznitelik seçimi hemde sınıflandırıcı algoritmaları birbirine bağlı çalışır.

Zarflayıcı Yöntemleri

  • Foward(ileri), boş öz nitelik kümesi ile başlayarak her seferinde kümeye bir grup öznitelik ekleyerek gruptaki öznşteliklerin kalitesi test edilir.
  • Backward(geri), tüm öznitelik kümesiyle başlayarak gruptaki öznitelikleri azaltarak her seferinde kalanların kalitesi test edilir.

Zarflayıcıların, performansı düşük olduğu için zarflayıcı yerine information gain kullanılır.

Öznitelik Transformasyonu

Eski özniteliklerden yeni öznitelikler türeterek çalışan bir sistemdir.

Elde edilen öznitelikler eskisinden fazla/az olabilirken bu gruptaki algoritmaların öznitelik seçiminden en önemli farkı yeni özniteliklerin -eskilerin bir birleşimi oldukları için- temel olarak artık niteliklerinin belirlenememesidir. Örneğin diabet verisinde kandaki glikoz miktarı, yaş standart öznitelikler olarak görünürken transform edilmiş bir diabet verisi aşağıdakine benzer:

Her öznitelik bir öznitelikler kombinasyonu şeklinde olup o özniteliğe ateş/yaş isminde bir isimle erişemeyiz.

 

 



Tarih:Yazılım/Teknoloji

İlk Yorumu Siz Yapın

    Bir cevap yazın

    E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir