K's Tech Blog

海外を拠点としながら働くWEB系エンジニアの徒然ブログ

AWS 北京リージョンにて大規模障害 〜 道路工事によりケーブルカット

2019年6月2日(日)にAWS Chinaの北京リージョン(CN-NORTH-1)において、EC2の接続障害が発生しました。
長時間に渡っての大規模障害となりました。


以下サービスヘルスダッシュボードの翻訳です。


接続問題に関して、詳細情報をお知らせします。
CN-NORTH-1リージョンの1つのアベイラビリティゾーンにおいて接続障害が発生し、EC2のAPI失敗及び新規EC2インスタンスの構築の失敗が全アベイラビリティゾーンにおいて発生しています。
深夜の道路工事によりCN-NORTH-1リージョン管内の複数のファイバーケーブルが切断されました。
この断線が一つのアベイラビリティゾーンに対してのインターネット接続に影響を及ぼし、このためEC2APIがCN-NORTH-1リージョンに渡って、利用できなくなっています。
すでに修理チームは断線の箇所を特定し、少しでも早い解決に取り組んでいます。

サービスヘルスダッシュボード
サービスヘルスダッシュボード


午後になって解決されました。
結局北京時間の午前2時から午後13時48分までという述べ12時間という長時間に渡って、EC2に接続問題が発生したとのことです。

解決済み
解決済み


まさかの道路工事でファイバーケーブルが断線という。よく原因箇所を短時間で特定できたものです。
上海ITエンジニア仲間のグループチャット内に、とあるエンジニアが早朝に悲鳴を上げて私は知りました。深夜対応になっていたようです。


リージョン全体でのEC2インスタンスの作成失敗ということは、北京リージョン内でAutoScalingしていても永遠にリカバリー失敗していたかもしれないということですね。
リージョンをまたいだ対障害性を考慮しなくてはならないという一つに事例になったのかなと思いました。

AWS 服务运行状况控制面板 [AWS Service Health Dashboard] - 2019-06-03 CST

  • WeChatに流れてきた云技术の速報

https://mp.weixin.qq.com/s?__biz=MzU0NDEyODkzMQ==&mid=2247496859&idx=1&sn=670d19a750f87f69020dbc4ed6a40f95&pass_ticket=1XswEmyXGx9BgN0HuFpPUcHOHgjFtGSqtHW0NGnm347d8eCHHdVwUGxm0Vhn8vjb



ちなみにまったく関係ないですが、6月20日AWS Summitが上海で開かれます。ちょっと楽しみです。
https://www.awssummit.cn/sh/reg/?trackingCode=awssummit-acts_en#xy_top1



以上