2012-06-01

雲端平台:Hadoop 介紹


Hadoop Apache 基金會的一個專案,建構  Hadoop  最關鍵的兩個核心機制為:

MapReduce

MapReduce 是程式開發模式,從程式流程中找出資料可以平行處理的部分,再將能夠採用平行處理的需求寫成Map程式。 然後用大量伺服器來執行Map程式,每臺伺服器分別執行Map程式來處理一小段資料,再將結果透過Reduce程式進行合併,最後則彙整出完整的結果。


HDFS

Hadoop架構,可以分成MapReduce運算層以及HDFS資料層。 HDFS透過NameNode服管理和維護HDFS的名稱空間與控制檔案的任何讀寫動作,同時NameNode會將要處理的資料切割成小的資料區塊,分配給大量伺服器進行處理。



Hadoop1.0的特色

Apache基金會在2011年12月27日釋出了 Hadoop 專案6年來第一個1.0正式版。Apache基金會也特別在官網上宣示,這是 Hadoop 專案的里程碑,代表著 Hadoop 已經為企業應用做好準備。 
  • Kerberos驗證
  • HDFS的Append功能
  • HDFS的HTTP存取 

Hadoop的更多能力

Hadoop 在Apache基金會的網站中還有其他的開放源始碼套件,組成了一個 Hadoop 生態體系(Hadoop Ecosystem) ,透過這些套件的加值,讓  Hadoop 具備了下述的能力
  • HBase 能容納PB資料量的分散式資料庫
  • Hive 可用SQL語法存取Hadoop資料
  • Pig 不懂Java開發也能寫MapReduce 
  • Mahout 立即可用的常用MapReduce函式庫  

參考資料



Related Posts Plugin for WordPress, Blogger...

沒有留言 :

張貼留言

,,