
8月23日午後1時ごろに発生した、米Amazon Web Servicesのクラウドサービス「AWS」の東京リージョンでの障害について、同社は午後8時18分、クラウドサーバの復旧がほぼ完了したことを明らかにした。制御システムの障害により、サーバの温度が上がりすぎたことが原因だったという。
同社によると問題が起きたのは、「Amazon Elastic Compute Cloud」(EC2)の東京リージョンを構成する4つのデータセンター(アベイラビリティーゾーン、AZ)の内の1カ所。制御システムの障害によって冷却システムの空調が効かなくなり、EC2インスタンスやEBSボリュームをホストする一部の物理サーバーがオーバーヒート(過熱)状態に陥ったという。
結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化したとしている。
今回の大規模障害は、東京リージョンを構成する4つのAZ(Availability Zone)のうちの1つで発生し、一部のEC2インスタンスやストレージのEBSボリュームに性能劣化やエラー、遅延などが発生した。EC2はAWSの主要なコンピューティングサービスであり、ゲームやWebサービス、コマース、決済、仮想通貨、SNS、公式サイト・アプリまで大きな影響が出ている。
同日18時30分頃には障害が発生したEC2サーバーの大部分、冷却システムが復旧した。また、同時に起こっていたデータベースサービスのAmazon RDSの接続障害も大部分の復旧が完了したという。
同社は、障害の影響が残ったままの残りのインスタンスなどについて復旧を進めている。影響を受けた顧客に対し、「迅速なリカバリーには、可能であればインスタンスなどをリプレースすることを推奨する」とした上で、「影響を受けたインスタンスの中には、顧客からのアクションを必要とするものもあるだろう。該当する顧客に対しては、次のステップで対応していく」という。
EC2とともに障害が起きていたクラウドデータベースの「Amazon Relational Database Service」(RDS)についても、午後8時46分時点で「大方の接続障害について復旧を完了した」としている。