大規模システム障害の舞台裏:ITpro

やまがた21さん経由

バックアップシステムがあったのに動作しなかったのは、なぜか!事例を含めた記事です。

ここ最近、大規模なシステム障害が相次いでいるが、疑問に思うことがある。「なぜバックアップのシステムが働かないのか」という点だ。そこで、筆者は日経コンピュータで特集を企画し、20社近くを取材した。その結果、各企業は様々な想定外に見舞われ、システム障害が表面化し、さらにバックアップが無力化していたことが分かった。

あり得る話です。本当にありがちです。この1つめなんて、厳しいなぁ・・・

その理由は、大きく3つに分けられる。
1つめはバックアップが効かない「単一障害ポイント」でトラブルが発生したこと(神戸新聞社大垣共立銀行)。
2つめがバックアップ側にも問題がコピーされてしまったこと(NTT地域会社)。
そして3つめがバックアップに切り替える判断ができなかったこと(ANA)−−である。

やっぱり人。人が大切。東京海上日動システムズでは、実際に2つのセンターを週2度切り替えて動作させているそうです。

これいい!!こいつの考え方は勉強させてもらいます。

今回の取材で痛感したのはやはり“人”の重要さだ。障害へと向かうシステムを救い出せるのは、ITサービスという舞台を支えるシステム部員やベンダーの担当者ではないだろうか。システムの「ブラックボックス化」や「データ量の増大」、「24時間の連続稼働」が同時に進む中、より肝要になっている。

実際の運用もそれを体現している。平日に東京で動かしているメインのシステムを土曜の深夜に千葉に切り替え、日曜深夜に東京へと切り戻す。東京海上日動システムズの島田洋之常務取締役は「普段は動いていないシステムを運用しろと言われても、そのセンターのスタッフはやる気を保てないだろう」と説明する。もちろん週2度の切り替えによって、バックアップの確度を保っているという側面もある。

各社の対策

ANA:マルチベンダでもシステム全体を見通せるような組織をつくる。

ANAは人の配置を見直す。5月末の障害を受け、外部コンサルタントを交えた検証タスクフォースを置いた。その結果として導き出された1つの解が、システム全体を見渡す横断組織の設置である。

NTT:作業員の複数目視チェック。。。

作業員がコマンドを打ち間違えたのが原因である。これによってハードディスクの内容が論理的に破壊され、バックアップ側にもコピーされてしまった。子会社は対策として入力コマンドを複数の作業員が目視でチェックする体制を作った。

大垣共立銀行:情報共有

ベンダーの開発と運用部隊の情報共有の甘さによって、障害復旧に時間がかかってしまった。データベースの検索速度を上げる工夫が運用部隊に伝わっていなかったのだ。そこで、開発部隊のノウハウを全社に横展開することを即決している。

screenshot