システム障害が発生したらどう動く?:ITpro

システム障害は必ず発生するという前提にたったシステムと情報収集ってのが必要ですよね。定期的にvmstatをとったり、復旧訓練をして復旧技術習得したりね。

管理者の為の障害訓練 - Admintech.jpこの辺を参考にしてみてはいかがでしょうか?

,「システム障害は起きる」という前提で,障害発生後を見据えた対策が必要になる。例えば,システム障害の原因を調べるためにシステム全体の状況を把握する必要があるが,その方法をあらかじめ決めておくといったものだ。さらに原因を判明しやすくするための工夫をシステムに盛り込んでおく,情報を収集する人と収集した情報に基づいて判断する人をあらかじめ決めておくといったことも必須になるだろう。
あるデータセンターでは,障害の原因判明にはシステムのログが必須だと考えて,障害発生時は詳細なログをコマンドで取ることを手順として決めていた。しかし,担当者のスキルによって取得するログの内容にばらつきがあった。そのため,障害原因の分析に必要なログが取得できておらず,原因究明に時間がかかったという。そこで,必要なログを取得するコマンドを含んだスクリプトを作成し,どの担当者でもそのスクリプトを実行することで十分なログを取得できるようにした。
あるECサイトを運営する企業では,実際に障害が発生した際に,あらかじめ決めていた復旧手順があったにもかかわらず,復旧に手間取ってしまった。その反省を生かして半年に1回,システム障害が発生した前提で実際に復旧作業を実施する“防災訓練”を実施することにしている。その企業の担当者いわく,緊急になればなるほど,人間は思ったように動けないので,何度も防災訓練しておくことが重要だという。