第1回 大量データのバッチ処理を高速化するHadoop | Think IT(情報元のブックマーク数)
Hadoop!Hadoop!!!MapReduceについて理解しないと
Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。
大量データのバッチ処理を高速化するHadoop | Think IT(シンクイット)
私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日本国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoop本の邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。
しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだよね」という声も多く聞きます。その理由を考察してみると、Hadoopというソフトウエアは「インフラ」の性質を色濃く持っているという原因にたどり着きます。Hadoopを「インフラ」としてとらえ直すことで、複雑に見えるHadoopをすんなりと理解することができます。
複雑な仕組みで障害が起こっても大丈夫
ハードウエア障害が起きても動き続けるための複雑な仕組みを備えています
大量データのバッチ処理を高速化するHadoop | Think IT(シンクイット)
Hadoopの構成を図2に示します。Hadoopは、HDFSと呼ばれる専用の分散ファイル・システムを持っていて、クラスタを構成する一部のPCが故障してもデータが失われない状態が維持されるようになっています。バッチ処理はMapReduceというフレームワークにより小さなタスクに分割されて並列実行される仕組みになっており、バッチ処理の実行途中に故障が発生しても動き続けるようになっています。また、クラスタ全体の処理性能が台数にできるだけ比例する(スケール・アウトする)ための工夫がなされています。
次回か!期待!期待!
このように、膨大な情報を効率的に処理するための新たなインフラとして、Hadoopは徐々に広まりつつあります。次回記事では、Hadoopがどのような仕組みでスケール・アウト性を実現しているのかを解説します。
大量データのバッチ処理を高速化するHadoop | Think IT(シンクイット)