富士通研究所(富士通研)は2月23日、クラウドシステムの障害予兆検知と障害原因の追求・解決を自動実行する技術を開発したと発表した。同社によると、開発した新技術は業界初。この技術を活用すれば、例えば障害解決の際、従来は平均15分かかっていた障害対処時間を1分程度に縮めることが可能という。

 クラウドは、個別に稼動している既存システムをデータセンターや企業内システムに集約するため、システムの規模が大きくなるのが一般的。また、仮想化技術を活用し、多数のサービスが同一物理サーバーで動作できるので、システム構成が複雑になる。そのため、障害が発生すると影響が広範囲に波及し、どこに障害があるのかを調べるのに多くの工数と時間がかかる。“止めない”障害対策は、クラウド構築・運用のカギになっている。

 新開発の障害対処技術では、高信頼で安定した品質のクラウドサービスを提供するために、障害が顕在化する前に検知して、事前に回避する。具体的には、まず障害時に、直前に出力されるメッセージから障害の予兆を事前検知。発生したメッセージと過去に発生した障害時のメッセージのパターンを比較することで、障害の予兆が発生しているかどうかを判断する。

 また、サーバーとシステムをつなぐネットワーク上を流れる通信パケットを収集・分析し、ロスや再送、遅延時間など、通信パケットレベルでの微細な変化を分析。10Gbpsの高速通信に対応させ、ネットワークやサーバシステムの障害をリアルタイムで検出する。

 検出した障害予兆に対して、予兆を発生させている最も疑わしい部分を推定。絞り込んだ障害原因に対して、障害対処履歴などの過去情報を活用し、運用管理者に適切な対処方法を提示する。