メディア記事

Cloudflareの障害、原因はBGPの設定ミス 東京を含む19の主要データセンターが一時オフラインに
Cloudflareの障害、原因はBGPの設定ミス 東京を含む19の主要データセンターが一時オフラインに
CDNプロバイダーの米Cloudflareは、2022年6月21日(日本時間)に発生したネットワーク障害について、原因を発表した。BGP(Border Gateway Protocol)の設定ミスが原因で、東京を含む同社の主要な19のデータセンターで障害が発生したという。

バズる指数ピーク 187

 twitterコメント 57件中 1~57件
ある人が直したのを別の人がまた直してぐだぐだに、ということもあったよう。
草

>あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発した
ネットワーク系の作業は、しばらくしてから反映されることが多いから原因が特定しづらくて特に怖いんよな。
ちょいちょいBGPの設定ミスってあるよね。
BGPは行き先案内板みたいなもんで、東名高速で名古屋方面と東京方面が逆に示されたようなもんだから、そりゃ大混乱になるよ。
バグった状態に戻すってそれなんて現場猫ですか・・・
BGP関連だったか…去年のFacebookの件もBGP絡みだっけ?今回は自爆っぽいけど、他社の設定ミスのトバッチリ食らうケースも含めてルーティング周りとDNSは鬼門だよな… -
やっぱり経路障害じゃねーか😒
BGPの設定ミスって数年に一回あるな・・・
昨日のネットワーク障害の原因はこれかー
昨日のCloudfrareの大規模障害はやっぱルーティングだったな
CDNプロバイダーの米Cloudflareは発生したネットワーク障害について、原因を発表した。BGPの設定ミスが原因で、東京を含む同社の主要な19のデータセンターで障害が発生したという

loudflareの障害、原因はBGPの設定ミス 東京を含む19の主要データセンターが一時オフラインに
障害の経緯が時系列で記事になっていますが、午後4時42分あたりは生々しい😖
▷While deploying a change to our prefix advertisement policies, a re-ordering of terms caused us to withdraw a critical subset of prefixes.
Googleが以前やらかした障害で、今回は復旧作業も統制とれなくて遅延したっぽい。BGP, AS掘るとインターネット”網”だって事を再確認させられるな
Twitterでは多くの技術者,IT業界人が,"インターネットが壊れたの!","世紀の大事件じゃないですか"とはしゃいでいて,いい歳してヤングジャンプを読んでいる人がたくさんいることがわかり,なんだか安心した(^^)
MCPにおける固有のテストとデプロイの手順を見直すこと、アーキテクチャの見直し、ロールバックの自動化の改善などに取り組む
Discordなど広範囲に不具合。Cloudflare障害は障害耐性向上に向けた作業ミスが原因
BGPの設定ミスで通信障害ってどこかでもありましたよね?
復旧の。
Cloudflareの報告によると障害はBGP(Border Gateway Protocol)の設定ミスが原因で、これにより東京データセンターを含む同社の主要な19のデータセンターで障害が発生した
設定を障害前に戻したのに、それをさらに障害状態に戻してしまったとか、そういうことがやっぱり起きてしまうのね。
BGPの設定ミスだったのね・・・。明日は我が身だなこりゃ。
頭皮に直接塗布して発毛を促す外用薬!
ミノキシジルが15%も
🔽
設定ミスでノードが通常ネットワークから切り離されて設定変更できなくなった時の辛さぐうわかる
地獄の無限ループ → 「ネットワークエンジニアAが元に戻した設定を別のエンジニアBCD(ryが気づかずさらに元して障害再発が散発 <
H29にも同じようなインシデントが、ぐーぐるさんであったようなぁ
Cloudflareの件、教科書に載りそうな失敗事例で面白かった

→あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう
バグというより、BGP設定ミスと。
うはー。:
昨日の支部とかの障害の詳細でてた。
>作業に時間がかかってしまった要因として、あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発した

まずは餅つけって奴だな
ミスの特定含めて対応が速い。
設定ミスって聞くだけで胃が痛くなる
ネットワークは1文字、1単語、1行、解釈ミスひとつ、伝達ミスひとつで億単位の金が軽く飛んで人の命にすら届きかねない世界だから怖い
今回の数百、数千分の一の世界で仕事しててもマジしんどい
の障害、原因はBGPの設定ミス 東京を含む19の主要データセンターが一時オフラインに
なるほど🤔
BGPの設定ミス>
大規模障害はBGP絡みの確率高い
BGP=CDNなどが使う基幹側のプロトコル|
にゃるほどにゃあ…🤔
こういうサービスを利用しているサービスで障害が発生した場合、ユーザーに対する責任ってどうなるのかな。利用規約で回避してそうではあるけど。
あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発したため

ヨシ!が足りない
人的ミスだったのか🤔🤔
昨日の障害、BGPの設定ミスとな…時系列で色々とまとまっており詳しい記事。担当者間の連携不足でロールバックに一度失敗しているというのがヒヤヒヤするやつ。
地獄だな
『作業に時間がかかってしまった要因として、あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発したため。』
原因はBGPのPolicy設定ミスってのは残念だけど、その後の切り戻したら、別のエンジニアが気づかずまた障害状態に戻すあたりちょっとおもろいなw
Googleとかでも同じようなミスは過去にありましたが、改めてBGPの運用は難しいですね。>ミスった時の影響範囲が半端ない!
昨日の。グローバルなインフラだよなあ
>米Cloudflareは、2022年6月21日午後(日本時間)に発生したネットワーク障害についての報告を公開 / 報告によると障害はBGP(Border Gateway Protocol)の設定ミスが原因
>あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発した
オウフ
実に興味深いですな
途中の報告書の和訳がほぼルー語と化していて笑う
> あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発したため。
(´・ω・`)
トップレベルの技術者が起こしたミスにケチつけることは出来ねえっす、、
Cloudflare の障害の件、原因が判明
こんな感じで迅速に対応できるのがすごい
30分で原因特定、1時間以内に復旧作業完了、正常復帰までは2時間半ほど

ミスが原因とはいえ、リカバーが見事に思ったり
昨日DiscordやPixivに接続出来なくなった件、原因が分かってきましたね。
タイトルとURLをコピーしました