大規模インフラの監視システムその2 | GREE Engineers' Blog（情報元のブックマーク数）

Greeの監視環境について。

こんにちは。グリーのmdoi(@m_doi)です。
今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られなかったので、気になっていた方も多いと思います。ということで、今回は、グリーのインフラにおける死活監視やログ監視、アラート通知システムを紹介したいと思います。
何を使っているの？
グリーでは、死活監視にNagiosを使用していました。監視システムの中では、かなり有名なソフトウェアですから、監視システムの構築に使用したことがある方も多いのではないでしょうか。プラグインも豊富に存在するので、様々な監視を行うことができます。死活監視は、このNagiosの機能をそのまま利用し、ログ監視は、Nagiosと独自に作成したエージェント及びログフィルタを連携させて行っていました。
大規模インフラの監視システムその2 | GREE Engineers' Blog

大規模化に耐えられずに破たん・・・確かにな・・・300台を超えたら、センターが悲鳴を上げそうだ。。。

と、ここまで説明してきたのですが、実は、上記のシステムはもう使用していません。何故なら、様々な問題を抱えて、大規模化に耐えられず破綻しかけていたからです。
問題その1 拡張性
構成図を見ていただければ一目瞭然なのですが、このシステムはCentral Nagiosがボトルネックになります。監視対象の増加に対して、Distributed Nagiosは増やすことができますが、Central Nagiosは増やすことができません。事実、大量のサーバでアラートが発生した場合に、Central Nagiosが処理しきれなくなるケースが多発し、大変な苦労を強いられました。単純な対応として、アラートメールの集約を諦めて、Central/Distributed Nagiosのセットを複数用意するという手段が考えられますが、同内容のアラートメールの流量が増えてしまうので、最後の手段と考えていました。
大規模インフラの監視システムその2 | GREE Engineers' Blog

AWACSに移行らしい。キューを使うあたりが開発者っぽい設計ですね。

次世代監視システム AWACS
上記以外にも、機能的に、あるいは運用上、様々な問題を抱えていました。特に大量のアラートを処理できないという問題から、上記システムは破綻しかかっていたので、これらの問題を解決しつつ、さらにより良いものを目指して、独自の監視システムを作ることにしました。
新しい物を作る上で名前は重要です。というわけで、名前から先に決めました。AWACSと言います。早期警戒管制機(Airborne Warning And Control System)ではなく、Alert Warning And Control Systemです。
大規模インフラの監視システムその2 | GREE Engineers' Blog

今後にも期待！

まとめ
今回は

Nagiosの分散構成と、独自のアラートフィルタを使用した監視の仕組み

上記の構成の問題点と、それを解決する新しい監視システムAWACS(Passive監視のみ)

PubSubなメッセージキューを活用した、冗長性の確保と負荷分散

について、紹介しました。現在、弊社の監視は、このAWACSを用いて行なっております。
大規模インフラの監視システムその2 | GREE Engineers' Blog