ヤフーを変え始めたHadoop - 検証!クラウドコンピューティング:ITpro(情報元のブックマーク数)

Yahoo!JapanがHadoopを活用し始めたとの事。

ヤフーが日本独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。

ヤフーを変え始めたHadoop | 日経 xTECH(クロステック)

Hadoopを活用するために会社横断の組織を作って活用か、これはすごくいい。6時間の処理が5分とか分散化の恩恵を受けているみたい。

同社は09年秋に、全社的にHadoop導入を進めるための社内横断的な組織を設立。データ処理の全社的なプラットフォームとしてHadoopを活用することを検討している。
Hadoopの主な用途は、データマイニングである。利用者によるコンテンツの閲覧履歴を分析し、お薦めの情報を推奨(レコメンド)する「レコメンドエンジン」などにHadoopを使用している。
地図検索などのサービスを手掛ける地域サービス事業部は、1台のPCサーバー上でリレーショナルデータベース(RDB)ソフトのMySQLを稼働させて処理していたログの集計を、Hadoopを使って20台のサーバーによる分散処理に移行した。この結果、6時間6分35秒かかっていた処理時間を、わずか5分34秒にまで短縮できたという。

ヤフーを変え始めたHadoop | 日経 xTECH(クロステック)

Pigかやっぱり。

ヤフーは今後、Hadoopを使ってより簡単に技術者がサービスを開発できるようにする。まず米ヤフーが開発する「Pig」のような、Hadoop用のスクリプト言語の導入を進める。
Pigを使うと、Hadoopを使ってデータを解析するのに、標準のプログラミング言語であるJavaではなく、SQLに似た言語を使える。Javaに不慣れな開発者でもHadoopを活用できるようになる。米フェースブックが開発するHadoop用のデータウエアハウス「Hive」の導入も進める。

ヤフーを変え始めたHadoop(2ページ目) | 日経 xTECH(クロステック)

screenshot