ビジネススピードと信頼性を両立させる システム基盤構築記[by mixi]:第2回 mixi.jpを支える運用監視|gihyo.jp … 技術評論社(情報元のブックマーク数)

mixiの小池さんによるmixiのシステム監視の話。

株式会社ミクシィの小池知裕です。運用部でアプリ運用を担当しています。前回は年末年始や突発的な負荷に耐えられるシステムの改善について紹介しました。連載2回目となる今回は,mixi.jpを支える運用業務でどのようにシステムの監視と測定が行われているのか,紹介します。

第2回 mixi.jpを支える運用監視:ビジネススピードと信頼性を両立させる システム基盤構築記[by mixi]|gihyo.jp … 技術評論社

MixiではNagiosで監視

一般的にWebサービスの運用を行う場合に「監視」と言えば,「死活監視/サービス監視」を指します。簡単に言うと「サーバが生きている」ことと「(Apacheなどの)サービスが生きている」ことの確認です。そこで,mixiでは監視ツール(システム)として「Nagios」を採用/導入しています。なぜNagiosを採用しているかというと,次のような特徴があるためです。

第2回 mixi.jpを支える運用監視:ビジネススピードと信頼性を両立させる システム基盤構築記[by mixi]|gihyo.jp … 技術評論社

YAMLからNagiosの設定ファイルを自動生成。確かに何かで一元管理しておいた方が便利だよね。

そこで,作業の省力化として「サービスとそれらを構成するサーバの関係を記述したYAMLファイル」からリスト1やリスト2のcfgファイルを生成するPerlスクリプトを利用しています(図1)。
このように比較的視認性がよいYAMLファイルを使うことで編集ミスを防いでいます。

第2回 mixi.jpを支える運用監視:ビジネススピードと信頼性を両立させる システム基盤構築記[by mixi]|gihyo.jp … 技術評論社

screenshot