İçeriğe geç

Ay: Kasım 2017

Veri Madenciliği – #DersNotlarım 4

Öznitelik Nedir?

Verileri tablo halinde düşündüğümüzde her bir satırı tanımlayan kolon/sutün özniteliktir. Örneğin; bir hastalık için hastalığı tanımlayan ayırıcı tahlil sonuçları özniteliktir.

Öznitelik Seçimi (Feature Selection)

Performansın iyileştirilmesi ve hesapsal yükün azaltılması için özniteliklerin bir kısmını alır ayırırız.

Öznitelik seçimi elimizde N tane öznitelik varsa buradan bir şekilde m tane özniteliği ayırarak kalan özniteliklerle sınıflandırma devam etmektir.Bir öznitelik seçimiyle hesapsal yükün azalmasını garanti ederken, tahmin performansı için garanti vermez.

Öznitelik seçiminin avantajları:

  • Öznitelik seçimi veri boyutunu küçültür, hesapsal yükü azaltır.
  • Boyutu küçülen verinin analizi kolaylaşır.
  • Veri karmaşıklığı azalır, sınıfsal/sayısaş kestirim performansı artar.
  • Overfitting probleminden kaçışa yardımcı olur.

Öznitelik seçim algoritmaları ve türleri

Yorum Bırak

Veri Madenciliği #DersNotlarım – 3

Veri Madenciliği Nedir?

Yeni gelen veri hakkında, eski verileri kullanarak bir tahminde bulunmaktır.
Amaç öngörüde bulunmaktır.

Kullanıldığı temel alanlar:

  • Kredi kartı ödeme güvenliği
  • Emlak kredisi ödeyebilme niteliği
  • Hava tahmini
  • Müşterilerin eski alışveriş bilgilerinden, yeni alabileceği ürünlerin tespiti
  • Aboneliği terk edebilecek potansiyel müşterileri bulma
  • Sosyal medya duygu analizi

Veri Madenciliği Yöntemleri

  • Regression
  • Classifacation
  • Clustring
  • Assocition Rule Mining

Veri madenciliği ileriye dönük tahminde nasıl bulunuyor? Nasıl bir yol izliyor ?

2 Yorum

Big Data – #DersNotlarım2

Hadoop Ek Bileşenleri

SPARK
  • Veriyi in-memory olarak (RAM’de) işlediği için hızlı çalışır.
  • MapReduce dağıtık işleme modelini kullanmaz.
  • Hadoop’dan bağımsız çalışabilse de çoğunlukla hadoop ekosisteminden ayrı kullanılır.
  • SQL desteği sağlar.
  • Python, Scala ve R dillerini destekler.
  • Sürekli veri işleme, dağıtık makine öğrenmesi algoritmaları ve grafik veri işleme desteği sunar.
  • Hadoop ve Hadoop tabanlı olmayan cluster üzerinde de çalışabilir.
HIVE
  • HQL olarak bilinen SQL benzeri bir dil ile Hadoop’a verilere erişim, verileri sorgulama işlevlerini sağlar.
  • Facebook tarafından geliştirilmiş, daha sonrasında Apache’ye devredilmiş açık kaynaklı bir projedir.
Yorum Bırak

Big Data – #DersNotlarım1

Big Data Nedir?

Big Data; hem boyut, hem veri çeşitliliği, hem şema bağımsızlığı hem de kestirilebilir bir zaman dilimi anlamındaki klasik İlişkisel Veri Tabanı Yönetim Sistemler ile elde edilemeyen ile alınamayan veriyi temsil eder.

Peki Big Data’yı hangi firmalar kullanıyor?

Facebook, AOL, IBM ve Yahoo gibi birçok firma big data uğraşmaktadır.

Hadoop Nedir?

Hadoop , büyük veri kümeleri ile birden fazla makinada paralel olarak işlem yapmamızı sağlayan Java ile yazılmış açık kaynak kodlu kütüphanedir.

  • Açık kaynak kodlu Apache projesidir.
  • Java dilinde yazılmıştır.
  • Ölçeklenebilir (tek bilgisayarda verilerin işlenmesi-yönetilmesi
    mantığından, işin/verinin boyutuna göre CPU’nun, hafızanın arttırıp azaltılması,
    verinin dağıtık saklanması mantığına dönüşüm vs) yapıdadır.
  • Çok büyük miktarda veriler, çok sayıda node adı verilen bilgisayarlarda saklanır.
  • Dağıtık sistemlerin bir problemi olan node’ların bozulması, nodelardaki verilerin bozulması sorunu, verilerin yedeklenmesi ve sorunlu node’un yerine yenisinin konması işlemlerini otomatik olarak ele alır.

Hadoop açık kaynak kodlu bir sistem olsa da, Cloudera, MapR, Hortonworks gibi firmalar tarafından ticarileşmiştir. Ancak bu noktada en temel Hadoop bileşenleri  HDFS, Map-Reduce ve YARN araçlarıdır.

Hadoop ‘ un Avantajları ve Dezavantajları

Yorum Bırak