大規模インフラの監視システム | GREE Engineers' Blog(情報元のブックマーク数)

Greeの大規模インフラの監視はCactiらしい。

今回はグリーのインフラにおける各種機器の監視がどのように行われているのかご紹介させていただきたいと思います。一般にサーバの監視というと、システムダウンを検出するための死活監視を意味する場合と、ネットワークトラフィック等のモニタリングのことを意味する場合とがあります。今回の監視は特に後者についてのお話です。大規模なインフラの監視には、やはり特有の課題があります。
どんなツールを使っているのか
グリーではサーバの各種リソース使用状況をモニタリングしてグラフ化するためのツールとして、Cacti を利用しています。Cacti は、大変有名なツールなので皆様ご存知かと思いますが、バックエンドの RRDtool で作成したグラフを閲覧するための使いやすいユーザーインターフェイスを備えています。
http://www.cacti.net/

大規模インフラの監視システム | GREE Engineers' Blog

監視システム自体の信頼性か・・・確かに、1000台で1サーバとかになりますよねぇ。

大規模インフラの監視における課題

通常、監視サーバに大掛かりなシステムが想定されることは稀だと思います。余裕のあるサーバ上でついでに稼働されていたり、仮想化技術を用いて集約されていたり、特に問題があると認識されることは少ないのではないでしょうか。
ところが、監視対象となるインフラの規模が増大してくると、監視システムを稼働させるサーバにも相応の性能が求められることに気づきます。そのうち 1 台のサーバの処理能力では足りなくなってきます。Cacti を利用する場合、現在では、それなりに高性能のサーバを用いても 1000 台程度を監視するのが限界だと思います。特に収集したデータによりデータベースを更新する際のディスク I/O がボトルネックとなりがちです。
しかし、それ以上に深刻なのが、増え続けるサーバを監視システムに登録する作業コストの問題です。一般的に、誰かが何らかの作業をし続けないと維持できない仕組みのシステムは、圧倒的な数の力の前ではすぐに破綻します。何らかの形で運用を自動化し、原則放置のままうまく動き続ける仕組みが必要です。

大規模インフラの監視システム | GREE Engineers' Blog

こういうネタをまっちゃ445とか地方の勉強会で話してくれないかなぁ・・・

まとめ

このように、グリーでは、独自に拡張した Cacti を用いて監視システムを運用しており、全サーバ、全ネットワーク機器を常時モニタしています。運用も多くが自動化されており、担当者は普段は何もすることがありません。
既存のツールはグリーのような規模の環境での利用を想定したものでない場合が多いので、定番のツールをそのまま使って解決できることが少なくなってきています。グリーのインフラチームは、サービス運用を支えるためのツールの改良や、新規開発にも取り組んでいます。

大規模インフラの監視システム | GREE Engineers' Blog

screenshot