İçeriğe geç

Etiket: hadoop

Big Data – #DersNotlarım2

Hadoop Ek Bileşenleri

SPARK
  • Veriyi in-memory olarak (RAM’de) işlediği için hızlı çalışır.
  • MapReduce dağıtık işleme modelini kullanmaz.
  • Hadoop’dan bağımsız çalışabilse de çoğunlukla hadoop ekosisteminden ayrı kullanılır.
  • SQL desteği sağlar.
  • Python, Scala ve R dillerini destekler.
  • Sürekli veri işleme, dağıtık makine öğrenmesi algoritmaları ve grafik veri işleme desteği sunar.
  • Hadoop ve Hadoop tabanlı olmayan cluster üzerinde de çalışabilir.
HIVE
  • HQL olarak bilinen SQL benzeri bir dil ile Hadoop’a verilere erişim, verileri sorgulama işlevlerini sağlar.
  • Facebook tarafından geliştirilmiş, daha sonrasında Apache’ye devredilmiş açık kaynaklı bir projedir.
Yorum Bırak

Big Data – #DersNotlarım1

Big Data Nedir?

Big Data; hem boyut, hem veri çeşitliliği, hem şema bağımsızlığı hem de kestirilebilir bir zaman dilimi anlamındaki klasik İlişkisel Veri Tabanı Yönetim Sistemler ile elde edilemeyen ile alınamayan veriyi temsil eder.

Peki Big Data’yı hangi firmalar kullanıyor?

Facebook, AOL, IBM ve Yahoo gibi birçok firma big data uğraşmaktadır.

Hadoop Nedir?

Hadoop , büyük veri kümeleri ile birden fazla makinada paralel olarak işlem yapmamızı sağlayan Java ile yazılmış açık kaynak kodlu kütüphanedir.

  • Açık kaynak kodlu Apache projesidir.
  • Java dilinde yazılmıştır.
  • Ölçeklenebilir (tek bilgisayarda verilerin işlenmesi-yönetilmesi
    mantığından, işin/verinin boyutuna göre CPU’nun, hafızanın arttırıp azaltılması,
    verinin dağıtık saklanması mantığına dönüşüm vs) yapıdadır.
  • Çok büyük miktarda veriler, çok sayıda node adı verilen bilgisayarlarda saklanır.
  • Dağıtık sistemlerin bir problemi olan node’ların bozulması, nodelardaki verilerin bozulması sorunu, verilerin yedeklenmesi ve sorunlu node’un yerine yenisinin konması işlemlerini otomatik olarak ele alır.

Hadoop açık kaynak kodlu bir sistem olsa da, Cloudera, MapR, Hortonworks gibi firmalar tarafından ticarileşmiştir. Ancak bu noktada en temel Hadoop bileşenleri  HDFS, Map-Reduce ve YARN araçlarıdır.

Hadoop ‘ un Avantajları ve Dezavantajları

Yorum Bırak