NTTデータグループの日本電子計算(JIP)で発生した自治体専用IaaSクラウドサービスの大規模システム障害は、一部データが消失した可能性もある深刻な事態となった。“堅牢さ”を売りにしてきた自治体専用クラウドの失態は、これまでアピールしてきた大手パブリッククラウドサービスに対する優位性に懐疑的な目を向けられることにもなりかねない。
JIPの山田英司社長は「パブリッククラウドとはひと味違うところをしっかり打ち出せるよう信頼回復に努める」と反省の弁を述べた。障害の直接的な原因は、Dell EMC製のストレージの制御ソフトウェアに起因するというが、JIPのサービス設計やシステム構成そのものに問題を抱えてきた側面も見え隠れする。
会見で謝罪したJIP経営者ら。
左からJIPの河和茂常務、山田英司社長、藤井浩司常務、神尾拓朗部長
自治体など50団体の業務に影響
12月4日に障害を起こしたJIPの自治体専用IaaSクラウドサービス「Jip-Base」は、中野区や練馬区、平塚市教育研究所など約70団体が利用しており、うち約50団体の業務に影響が出た。自治体の公式ホームページの閲覧や戸籍証明の発行、後期高齢者医療保険関連の手続き、学校の校務で使うファイルサーバー、電子入札関連、職員が使う電子メール、グループウェア、財務会計、図書館システムなどが一時的に使えなくなった。
JIPによれば、障害発生から12日目の12月16日の段階で、システムの70%が復旧、15%が復旧の見込みありで、残り15%が復旧できるかどうか分からない状態。原因は、Dell EMC製のストレージを制御するファームウェアの不具合。サーバーからストレージに接続できなくなったことで一部システムが停止した。JIPは不具合を修正するパッチファイルをDell EMCから入手し、ストレージの動作は正常に戻ったが、一部データに不整合が発生し、バックアップ先から完全な復旧はできなかったという。
本来は12月9日の月曜日までに全面復旧を目指していたが、データの不整合の部分の調査が終わらず、全容の把握にさらに1週間の時間を要した。
Jip-Baseで提供するのはあくまでもサーバーやストレージといった基盤サービス部分であり、業務アプリケーションやユーザーデータの領域は個別の対応が必要となる。ユーザー自身でバックアップを行っていたり、他のSIerが担っている部分もある。
基盤部分は復旧できる見込みだが、復旧が難しいユーザーデータについては「ユーザー先でバックアップがあれば、それを活用するが、作り直すケースも出てくるかも知れない」(神尾拓朗・公共事業部基盤サービス統括部部長)と話す。復旧困難なユーザーデータの影響範囲は30団体以上になるという。
ストレージの不具合が引き金に
障害の引き金となったファームウェアの不具合を修正するパッチファイルは、Dell EMC側ではすでに制作済みだったが、その存在を「JIPが知り得る立場になかった」(山田社長)という。また、仮に知り得たとしても「深刻な障害が発生する不具合とは認識していなかった」とのことで、もし事前にパッチファイルがメーカー側から配布されたとしても、すぐさまパッチを当てる判断をするだけの材料をJIPは持ち合わせていなかった。
緊急度の高いパッチファイルは、通常Dell EMCから直接連絡が来て、JIP側と協議した上でパッチを当てる。そうでない通常のパッチも頻繁にあるが、「新しく配布されるパッチそのものに不具合があるケースも珍しくない」(神尾部長)ため、すぐに当てるのではなく、メーカー側の動作検証の結果を見極めて、月単位でまとめて当てることが多いという。Jip-Baseで使うハードウェアは、JIPが運営するデータセンター内に設置しているが、本番機は1セットしかないためパッチを当てたことで逆に障害が発生するリスクを懸念していた。
存在意義を取り戻せるか
今回のシステム障害から見えてみるものは“堅牢さ”が売りであるJip-Baseの根幹を支える部分でメーカーに依存しすぎていた点だ。ストレージやサーバーに不具合はつきもので、本来であれば不具合を見越したサービス設計やシステム構成にするところに、サービス提供者であるSIerとしての最大の付加価値がある。
SIerが独自に提供するクラウドサービスは、「Amazon Web Services」や「Microsoft Azure」などの大手パブリッククラウドと比較して、使用料金が高くても、ユーザーの業務が止まらないように、データ保全を含めてSIerが責任をもってサポートすることをセールスポイントにしてきた。国内最大手SIerであるNTTデータグループのクラウドの存在意義が揺らぐ事態となれば、SIerが運営するクラウドサービスそのもののイメージダウンにつながりかねない。
山田社長は、「サービスを提供しているのは当社であり、ストレージやサーバーの障害は起こり得るという前提に立って、システムの設計や構成を真摯に見直していく」と、SIerとしての責任を果たす考えを示すが、信頼回復への道のりは依然として険しい。(安藤章司)