リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大 - ニュース:ITpro(情報元のブックマーク数)

Hadoopの利用実績が出てきて、実際に色々居ようされているとの事、日経コンピュータセミナー・Hadoopが変える企業情報システムの実像の記事です。

リクルート楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH(データウエアハウス)としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。
NTTデータウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大 | 日経 xTECH(クロステック)

たしかにログデータの解析にはよさそうですね。

講演を行った同社MITシステム基盤推進室の石川信行氏(写真1)は、「従来は、1カ月分のログデータをRDBを使って分析していた。1年分のログデータを分析するのは、RDBではデータ量的に難しい。そこでHadoopを導入した」と語る。HadoopベースのDWHを使って、Webサイトにおける広告宣伝効果を測定したり、全サイトをまたいだユーザーの行動解析を行ったりしている。
リクルートはログ解析用DWHの構築に当たって、Hadoopの他に、リレーショナルデータベース(RDB)を使ったDWH製品など、合計4種類のDWH製品の性能を検証した。石川氏は、「Hadoopには、RDBと比べてアプリケーション開発が難しいという弱点がある。その一方でHadoopには、大容量データの処理で高い性能を発揮できること、拡張性や可用性に優れていること、インフラ運用の手間がかからないことといった利点がある。これらを総合的に判断して、Hadoopの採用を決定した」と語る。

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大 | 日経 xTECH(クロステック)

MapReduceのプログラムを開発するのが非常に難しいからHiveを使ってるらしい。

石川氏によれば、「MapReduceのプログラムを開発するのは非常に難しい」ため、同社ではHiveの使用を推奨している。さらに現在は、GUIツールを使ってHadoop用のプログラムを開発できる「Karmasphere Studio」や、Hadoopを使ってOLAP(オンライン分析処理)などができるようになるBIツール「Pentaho」などの導入が可能か、検討を始めている。

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大 | 日経 xTECH(クロステック)

商品レコメンド処理にHadoopを活用らしい。

楽天の事例は、Development Unitアーキテクチャコアテクノロジー課の河村圭介氏(写真2)が紹介した。同社は2008年4月からHadoopの検証を開始し、2009年3月から「楽天市場」における商品レコメンド処理などに、Hadoopを使用している。2010年8月以降は、三つのHadoopクラスタを運用しており、「小規模なものが二つ、中規模が一つある」(河村氏)という状況だ。
河村氏は現在、Hadoopを使った大規模データ解析インフラの構築に専念している。「自分のような、Hadoop向けのインフラ構築に特化した役割が社内に生まれていることに、時代の移り変わりを感じさせる」と河村氏は表現する。

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大(2ページ目) | 日経 xTECH(クロステック)

楽天はPig。

ランキングプログラムの開発には、SQLに似た構文を使ってHadoop用プログラムを開発できる「Pig」を使う。河村氏は、「Pigを使うことで、集計処理を数行のプログラムで実現できるようになる。またプログラムの可読性も高くなる」と語る。

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大(2ページ目) | 日経 xTECH(クロステック)

screenshot