レポート:見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催|gihyo.jp … 技術評論社(情報元のブックマーク数)

Hadoop Hack Night Vol.2のレポートだけど、実際にHadoopを使った大規模な事例をYahoo!Japanが紹介とのこと

8月4日,六本木ミッドタウンのヤフー株式会社にて,今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。
Hadoop(ハドゥープ)は,いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。
このように注目を集めているHadoopだが,実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで,今回の「Hadoop Hack Night Vol.2」は「ケーススタディで知るHadoopの可能性」と題して,実際に導入実績をもつベンダの技術者に導入事例を元にしたHadoopのメリットや現状の課題を語るセッションとなった。

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催:レポート|gihyo.jp … 技術評論社

HadoopRDBMSとの違いか、、、これがわからないと設計できないだろうなぁ。

同社は日本でも多くのHadoop導入経験を持つが,RDBMSとの違いがわからないといったHadoopへの認識の低さや誤解がHadoop導入の「壁」になっていると指摘する。清田氏は,Hadoopはインフラとして理解するのがポイントだと言う。インフラは,外から見えるインターフェースは単純だが,中身は複雑なことを行っている。例として水道を挙げ,UIとしては蛇口のコックをひねって水が出るというだけだが,裏では河川などから水を取り,浄水場などを経て配水管理などを行うといったシステムが動いている。同じようにHadoopもインターフェースとしてはとしてはファイルの読み書き/管理とバッチ処理の管理だけしか見えないが,裏では各種のプロセスやデーモンが複雑に絡み合って動いていると紹介した。この裏の部分はブラックボックスとして捉え,ファイルシステムHDFS)とジョブ管理(MapReduce)を理解するだけで良いという。

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催:レポート|gihyo.jp … 技術評論社

データ量もデータ内容も非定形化してて、それをうまくスケールアウトさせるためにHadoopはあると。

一方これとは別に,Hadpoopがなぜ必要なのかを理解することも大きなポイントだ。データ量が飛躍的に増大する中,データ処理も定型から非定型に移りつつあり,システムのスケールアウトも必然的に起こってくる。こうした処理は従来のRDBでは賄いきれず,Hadoopのように大量データバッチ処理の高速化に特化し,組織内システム(インハウス)利用を想定したシステムが必要になるのだ。

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催:レポート|gihyo.jp … 技術評論社

分散処理をかけることで、これまで大規模な計算機が必要だったのがHadoopで事が済んじゃう。確かに使い方を間違えなければ有用だわな。

Hadoopへの具体的な期待として清田氏は,複雑なデータ分析を例に挙げ,「大量にたまったログの解析など,これまで歯が立たなかったところに手が出せるようになった」と述べると,太田氏もこれに同意し「スーパーコンピュータが行っていたような処理がオープンソースでできるようになったのはすごいこと」と語った。大谷氏も「オープンソースでできるということは,これまでパッケージが得意としていた分野に自分が積み上げてきたノウハウが活かせる可能性が出てきた」と期待を口にした。

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催:レポート|gihyo.jp … 技術評論社

screenshot