メディア記事

システム過負荷でなぜATMにトラブルが? みずほ銀システム障害、運用面の課題あらわに

バズる指数ピーク 170

 twitterコメント 141件中 101~141件
本当にあった怖い話(SE並感)
データの処理タイミングは計画性もってやらんとあかんよなあ。想定以上の処理でトランザクション領域を食い尽くしたとかなのかと想像してたけど。でも日曜のあの時間帯に過負荷?ってのが引っかかるんだよね。
45万件とか25万件とかでダウンするなら、もうAWSに移管してしまうのが良いのでは?今のままだとみずほだけが叩かれるけど、AWSダウンしたら阿鼻叫喚になるだけだし。少なくとも稼働率はAWSのほうが良さそう(小並感)
メモリ不足という記事も見かけたけど、これを読むとアーカイブログ出しまくってぶっ飛ばしちゃったんじゃないかという風にも読める。もしそうなら2年前に俺がやったやつだ。
「1年以上動いていない定期預金口座のステータスを変更する作業を行った。定期預金の月末処理も15万件同時に処理した。
システム上の空き容量が不足した結果、障害が発生した。」(一部略)

そんな作業日を重ねるな(´・ω・`)

みずほ銀システム障害、運用面の課題あらわに
みずほ銀行、前回のシステム移行でMINORIに移行した際、バッチ処理を全面的に取りやめてすべて1件づつトランザクション処理を行うオンライン方式に変更したんですけど、一気にやってJobが溜まり過ぎたんですかね
データ移行作業と月次バッチ処理が重なってメモリ不足て生々しすぎる…
予測できないほど月末処理が急増する特殊要因がなんかあったんだろうか。
記事を読む限りでは、複合的な要因のようですが
そも、不具合を生む可能性のある要素が
少なくない数で複数存在していた、という事が
そもそもの問題では?
これは再発するだろうな、と思った。
たった45万件のデータを更新するだけでこんな障害起こすなんてよっぽど設計が悪いんだろうな。
そもそも月末処理があるのわかってるなら普通は月末にデータ更新バッティングさせないでしょ。
会見での説明内容を真に受けるなら「全貌が垣間見えた」で良いのかもしれないけど、実際この会見の説明どおりの実態なら、お金を扱うシステムとしてはちょっとあまりにも信頼性が低すぎない?と思う。
しかし、キャッシュカードを飲み込んだままというのも、なにかちがう。。
運用ね。
"この日は、27日を10万件上回る25万件の月末処理が重なった。システム上の空き容量が不足した結果、インターネットバンキングやATMで定期預金の取引ができなくなる障害が発生した"
珍しい。
「お客さまに向き合うみずほ銀行が全ての責任を負う。(ベンダーによる)システム構築は無事に成功しており、運用面でみずほグループに不十分なところがあった。グループが責任を持って対処すべき」
ATM自身が機能制限をかけたってこと?
夜間バッチが遅れたからって通帳を持ってくなよ…。
システム負荷を計算していながらの
このお粗末さ何だかな
あくまでサグラダファミリアはちゃんと完成したというスタンスを取らなきゃいけないの大変だな
メインバンクにみずほ指定してる人は変えた方がいいよ。
本件とは関係ないが指定時間外で手数料かかるのはなぜ?機械なのに、自販機は手数料ないよねw
いや、カードや通帳を飲み込むこと事態が、運用設計のミスなのでは?止まるのは仕方ないし通帳を飲み込むのはわからなくもない(記帳途中とか)けど、カードを飲み込むのはちょっとわからない
みずほほど大規模な顧客を抱えている銀行ならば、月次や夜間処理などのバッチ系と、窓口・ATM等のリアルタイム系を分けて処理する必要があると思うのだが、 /
バグを誤作動と言っちゃうのか。「ATMには不正利用の食い止めや、不完全な処理の確認のため、通帳やキャッシュカードを一時的に取り込む機能がある。これが誤作動した」
処理負荷が上がって、メモリが足りなくて、スラッシング起こした
機能縮退は正常に動作したが、対象がATM関連だった
ってことかな🤔
ずっと気になってた事が分かった。

システム負荷

負荷軽減のために機能制限に(縮退)

ATM機能も機能制限に

ATMの保守機能が誤作動
「1年以上動いていない定期預金口座のステータスを「不稼働」に変更するデータ更新作業」
2年定期とか3年定期しかないと不稼働なの?
これは分かりやすいまとめ。少なくとも自分が疑問に思っていたところは一通り説明つけられてる印象。現時点でここまで見えてるのはポジティブだと思う。-
結果は予想できないものだったけど、システム的には仕様通り動いたという話なのかな。
過去2回の大トラブルに比べたらまだマシだけど一顧客からすれば十分に大ダメージよね
定期預金の更新バッチは別日でも良かったんじゃないかなぁ、結果論だけど。
むしろ今後の対応姿勢が某省庁とは違うよアピールに見えなくもない
システム全体を守るために顧客をないがしろにする結果となったようです (´Д` ) 優先順位の付け方
うーん、まだなんとも納得しにくい。
「どこかで問題が起きた場合にシステム全体がダウンしないよう、一部の機能に制限を掛けて負荷の軽減を図る機能がある。今回もその機能が稼働し、全体的な障害は免れた。」心臓が止まらないように首を切ったみたいな
うーん、金融系システム構築、僕は絶対無理だなぁ。
---
運用あるあるだー。辛い。。。 >
“約45万件のデータ更新作業を行っていた。…月末処理が重なった。システム上の空き容量が不足した結果…障害が発生した”

リソースが必要な処理をシステム負荷の高い月末にやるとか金融システム担当として正気の沙汰とは思えない。

みずほ銀システム障害運用面の課題あらわに
こうゆうのって分散システム化できないのかしら?
ATMに飲み込まれたの5000人以上かぁ。
流れはなんとなくわかった。運用が悪かったという説明も『まあ、せやな』としか言いようがない。
カード飲み込んで返さない機能(不正利用対策とか)が動くのは……
タイトルとURLをコピーしました