自動ニュース作成G
ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/
2016-03-31 05:47:33
>ANAでは2013年2月に国内線旅客システムをメインフレームからオープンシステムに再構築して以来、初めての大きなトラブルとなる。実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった(関連記事:【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」)。
>社会インフラを支える大規模システムになればなるほど、構成要素が増え、アプリケーションは複雑になる。関わる人も大量だ。信頼性を高める努力を続ける一方で、システムは必ず止まるという前提で事業継続性をどうデザインするかが新たな課題になりそうだ。
◆
・人的ミスと決めつけていた間抜けなブログがあったなあと思い出したら見つけた>全日空システム障害の原因は?評論家は相変わらず何もわかってない!http://it-toranoana.com/2016/03/22/ana-trouble/
・この人の分析はまとも>ANA全日空システム障害で国内線搭乗手続き不能に・・・忘れていくが現実にhttp://powerpro.at.webry.info/201603/article_40.html
・これ思い出したよ>http://gigazine.net/news/20150910-cisco-switch-button-reset/
・すげぇw てか、手動で > #3
・(#4)も同じこと起きるよね、と思ったら起動後5秒以内なのか http://www.cisco.com/web/JP/product/hs/routers/c800isr/prodlit/qa_c67-520756.html
・故障シグナルって、SNMPトラップか何かかな? 監視機器からの正常性応答確認とかはしてなかったのかな
・対策としてDBサーバ側からスイッチの正常性確認を追加したとあるね。snmp問い合わせ投げて応答しなかったらポートシャットダウンするとかかな。そもそもシステムに潜む故障モードの分析か対策が十分ではなかったのかな