Amazon S3が一時ダウン、米国東部リージョンで大規模障害。肝心のヘルスダッシュボードまで巻き込まれて表示が乱れ、AWS公式ツイッターアカウントが状況報告 − Publickey

(情報元のブックマーク数

落ちないS3が落ちてヘルスチェックのページも落ちたとw

AWSの米国東部リージョン(US-EAST-1、バージニア北部)において、遅くとも日本時間午前4時頃からAmazon S3の障害が大規模に発生。約3時間後の午前6時50分頃に復旧作業が終了し、通常運用に戻ったことがAWSから報告されています。 TechCrunchの記事やZDNetの記事によると、この障害でSlackのファイル共有やSlideShareのスライドのダウンロード、Business Insider、IFTTTなどさまざまなサービスで障害が発生。 さらにAmazon S3AWS自身が提供するさまざまなサービスの基盤にもなっているため、同リージョンで提供している多数のサービスにもエラー率が上昇するなどの影響がありました。 なかでも大きな影響の1つが、障害の状況を示すはずのAWSヘルスダッシュボード自身がこの障害に巻き込まれてしまった点です。AWS公式ツイッターが、状況を示すダッシュボードの色が変わらなくなってしまったので、画面上部のバナー部分を参照のこと、とツイート。

Amazon S3が一時ダウン、米国東部リージョンで大規模障害。肝心のヘルスダッシュボードまで巻き込まれて表示が乱れ、AWS公式ツイッターアカウントが状況報告 - Publickey

コマンドの引数ミスだった模様

Amazon S3チームは、S3の課金システムの動作が遅いという問題の原因を修正しようとしていた。太平洋標準時間午前9時37分、権限を有するS3チームメンバーの1人が、S3の課金プロセスによって使用されている、あるS3サブシステム用のサーバのごく一部を切り離すために、確立された手順に従ってあるコマンドを発行した。残念なことに、このコマンドに引き渡す入力の1つが誤っており、想定していたよりも多くのサーバを切り離してしまった。 AWSのS3で異例の大規模障害、多数のウェブサイトに影響--数時間後に復旧  このミスによって、US-EAST-1(米国東部:バージニア北部)リージョン(Amazonで最も古くから稼働しており、数多くのデータセンターを抱えるリージョン)におけるすべてのS3オブジェクトが必要とする2つのサブシステムが意図せず停止した。いずれのシステムも完全な再起動が必要となった。再起動と、安全面で必要なチェックの実施に「予想以上の時間がかかった」とAWSはレポートに記している。

AWS S3の大規模障害、原因は入力ミス--調査レポート公開 - CNET Japan

screenshot