三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

自動ニュース作成G三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/2018-02-09 16:33:39＞「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」（広報）。・二個目が壊れたのに、すぐに直さず放置してたんじゃないの？・#1 勘のいいガキは嫌いだよ・1週間放置でも大丈夫だよhttp://gnews.x0.com/20180130_135814/・普通はこの手のシステムを更に束ねるもんだが・好意的にとらえるなら、電源やろなあ。まずないけど、分離しないものなの？・15台でRAID6かぁ……・Saeagateの4TBのHDD15台でRAID組んでたら5台壊れてるところだった。https://www.backblaze.com/blog/hard-drive-stats-for-2017/・同じ場所で使用していると、同時故障のリスクが上がる。同じサーバー内のHDDなら3台くらいは同時に壊れても「そんなに不思議ではない」という感じ。・俺は単純ミラーリング以外信用しないぞ。マジで本当に大切なデータはそうすべき。・RAID5とか10なんて信用ならない。#9に同意する。ミラーリング以外データの冗長性に関しては信用できないな。・大切なデータはRAIDじゃなくてバックアップ・#11　それにも同意する。バックアップの手法としてミラーリングのHDDを3台用意して1つを外して保管という運用をしてるのでね。HDDのバックアップとしてHDD以外なんて選択肢がそもそも実用的でないし。・お金があったらRAID5か6のレプリケーションと数世代のバックアップぐらいしたいところ・リアルタイムでデータが書き変わるのに、バックアップじゃ無理でしょ。・RAIDだけで保護できるとか思わずにレプリケーションとかバックアップもねみたいな話よ。・そうそう、昔ならWordなどがフリーズして「俺のｎ時間を返せ」くらいの被害に。・そもそも今回の問題は作業エリアでしょ？バックアップとか関係ないような・ニュースから離れて大切なデータの保護みたいな方向の話になってるっぽかったので・RAIDの場合、台数増やせば増やすほど冗長性は低くなる。15台なんて論外。・#19 こういった規模のシステムじゃ珍しくもない数だろう。・「バックアップが無かった(使えなかった)」この一言でしょ。どんなに冗長化しても、バックアップは、多重に別媒体／別環境にとるのは必須。冗長化は、十分なバックアップ体制できてから、そのあと冗長化を進めるべき。ジャーナルなど更新後ログも同じ。・#21 リアルタイムで稼働してる作業領域のバックアップって何？別にマスターデータはあるんですよ。・うちの場合、仮想環境にWebサーバを数百サイト載せててRAID飛ばした。バックアップとってなかったから現場に謝って全部素材から作り直した。でも未だにバックアップはとっていない。・うちの場合、重要なサーバーは書き込み自体を2箇所に行って、サーバーそのものをミラーリングみたいな運用にしてバックアップにしてある。もちろんサーバー内ではRAIDも組まれている。片方のサーバーが壊れても自動でバックアップサーバーに切り替わる。・壊れたドライブ取り替えてリビルドかけるとその負荷でまた別のが壊れるんだよな。単純に確率では計算成り立たない。