AWS、先週のサービス障害は連鎖的トラブルにより深刻化|クラウド・コンピューティング|トピックス|Computerworld(情報元のブックマーク数)

全然触れてなかったけど、AWSの落雷による大規模障害ってのがあったらしいですね。(ぇ

米国Amazon.comの子会社Amazon Web ServicesAWS)は7月2日、同社のクラウド・サービスで先週発生した障害についてのレポートを公開した。停電発生をきっかけとして、自家発電設備の不具合、ソフトウェアのバグ、再起動プロセスの遅延などが連鎖的に影響し、「多くの顧客に重大な影響を与えた」と説明している。
米国東部を嵐が襲った6月29日夜、AWSの米国東部(バージニア)リージョンの一部でサービス障害が発生し、一時はAWSを利用する「Instagram」「Pinterest」「Netflix」などの人気サービスの運営にも影響が出た。
レポートによると、6月29日夜の嵐によって19時24分ごろから、AWSの米国東部(バージニア)リージョンに供給される商用電源が不安定な状態となり、AWSでは自家発電機に切り替える処置を行った。しかし、同リージョンにある複数のデータセンターのうち1カ所で自家発電機が十分に作動せず、電力を安定的に供給できなかった。そのため、もう1つの予備電源であるUPSからの電源供給となったが、20時4分にはUPSからの電力も失われ始めた。
自家発電機が不安定な状態は20時14分まで続き、その後20時24分にはすべてのラックに対し安定的に電力を供給できるようになったが、この間、「Elastic Cloud Compute(EC2)」、「Elastic Block Storage(EBS)」のサービスがオフラインになったり、新規EC2インスタンスやEBSボリュームが作成できないなどの影響が出た。

http://www.computerworld.jp/topics/601/%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%83%BB%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0/203929/AWS%E3%80%81%E5%85%88%E9%80%B1%E3%81%AE%E3%82%B5%E3%83%BC%E3%83%93%E3%82%B9%E9%9A%9C%E5%AE%B3%E3%81%AF%E9%80%A3%E9%8E%96%E7%9A%84%E3%83%88%E3%83%A9%E3%83%96%E3%83%AB%E3%81%AB%E3%82%88%E3%82%8A%E6%B7%B1%E5%88%BB%E5%8C%96

screenshot