ウルシステムズのHadoopフレームワーク「Asakusa」(1/4):企業のIT・経営・ビジネスをつなぐ情報サイト EnterpriseZine (EZ)(情報元のブックマーク数)

HadoopをベースにしたAsakusa Frameworkをウルシステムズが出したみたいで、そのインタビュー記事。

企業ITに携わる人々の間で、Hadoopに対する関心が急速に高まっている。
ウルシステムズの「Asakusa Framework」は、基幹バッチ処理Hadoopを適用するためのフレームワークだ。このAsakusa Frameworkについて、ウルシステムズ 代表取締役社長の漆原 茂氏と、その開発プロジェクトを主導した同社 取締役の神林飛志氏に話を聞いた。

ウルシステムズのHadoopフレームワーク「Asakusa」 (1/4):EnterpriseZine(エンタープライズジン)

ここに目を付けたのが、ウルシステムズだ。同社が2011年3月にオープンソースとして公開する予定の「Asakusa Framework」は、基幹バッチ処理Hadoopを適用するために必要な開発環境と実行環境、運用環境を提供するソフトウェアフレームワークだ。基幹系システムにHadoopを適用する上でネックとなる部分をすべてフレームワークで吸収し、Hadoopの専門知識がなくても基幹バッチ処理Hadoop上で容易に実行することを可能にするという。

ウルシステムズのHadoopフレームワーク「Asakusa」 (1/4):EnterpriseZine(エンタープライズジン)

スケールアップで対応でききれなかったバッチ処理

「多くの企業がホストコンピュータの古い環境を抱え続けているが、特に手付かずで残されているのがバッチ処理だ」
漆原氏はこのように語る。多様な形式のデータを一括で大量処理するバッチ処理は、並列化による高速化の効果が出やすい。従って、並列処理性能に優れたホストコンピュータに自ずと頼りがちとなり、結果として古いCOBOL環境が最後まで残ってしまうケースが多いという。

ウルシステムズのHadoopフレームワーク「Asakusa」 (1/4):EnterpriseZine(エンタープライズジン)

キーはI/O

RDBMS上のバッチ処理はどうしてもI/O処理がボトルネックになってしまう。ムーアの法則を例に出すまでもなく、オープン系サーバに搭載されるCPUは年々性能が向上し、メモリの容量単価も下がり続けている。しかし、サーバの性能がいくら向上しても、結局はI/Oがボトルネックとなり、ハードウェアを刷新しても投資に見合うほどの性能向上がなかなか見込めないのが実情だ。

ウルシステムズのHadoopフレームワーク「Asakusa」 (1/4):EnterpriseZine(エンタープライズジン)

HadoopはI/Oを分散させることでスケールさせるので、バッチに最適。

「驚くほどきれいにスケールする。従来のRDBMSアーキテクチャと異なり、HadoopはI/Oを分散処理するので、I/Oボトルネックが発生しない。従って、サーバのCPU性能をほぼ100%使い切ることができる。このことによる性能向上の効果は、極めて大きい」(神林氏)

ウルシステムズのHadoopフレームワーク「Asakusa」 (2/4):EnterpriseZine(エンタープライズジン)

Hadoopの特殊すぎる記述言語

しかしその一方で、Hadoopが持つ弱点も露呈したという。Hadoopでデータの分散処理を実行するためには、「MapReduce」というプログラミングモデルに沿ったコードを記述する必要がある。しかしMapReduceでは、分散処理のために分割されたデータの断片を直接扱いながら並列分散処理を実装しなくてはいけない。そのためには、並列分散処理に関する高度なスキルが必要となり、開発工数も大きくかさむことになる。

ウルシステムズのHadoopフレームワーク「Asakusa」 (2/4):EnterpriseZine(エンタープライズジン)

ということで作ったのがAsakusa Frameworkらしい。

「実際にMapReduceで基幹バッチプログラムを書こうとした瞬間、すぐに無理だということが分かるはず。かといってHiveやPigは、想定している用途がBI中心なので、基幹バッチでは使えない。そこで、MapReduceのプログラミングモデルを知らない人でも、バッチの業務内容さえ分かっていれば簡単にHadoop上の基幹バッチプログラムを開発・運用できるフレームワークを作ろうと思い立った

ウルシステムズのHadoopフレームワーク「Asakusa」 (2/4):EnterpriseZine(エンタープライズジン)

screenshot