システム復旧支援SaaS開発の米PagerDuty(ページャーデューティ)は、自社ユーザーの直近におけるシステム障害を調査・集計した結果、約3分の2がソフトウェアのアップデートに起因していることを明らかにした。アジャイル開発やCI/CD(ソフトの継続的構築と継続的実装)の浸透で、企業の業務システムにおいても随時アップデートするケースが珍しくない中、「システム障害を完全に防ぐのは困難であり、停止時間をいかに短くするのかを重視すべき」と、ジェフリー・ハウスマン最高製品開発責任者は話す。
ジェフリー・ハウスマン 最高製品開発責任者
2024年7月にセキュリティーソフトのアップデートが原因とされる世界規模のシステム障害が発生した際は、「システム復旧のために通常時の10倍余りの作業量を強いられたユーザー企業が少なくなかった」(ハウスマン最高製品開発責任者)と指摘。一方で、PagerDuty製品ユーザーの多くは過去の平均的なシステム停止時間の1.3倍程度で復旧することができたとしている。
各種のシステム運用管理システムから上がってきた情報をPagerDuty製品によって適切に仕分けし、必要なスキルを持った復旧作業員を迅速に割り当てることで時短に結び付けた。
8月には生成AIの機能拡充を発表しており、過去のシステム障害の原因や復旧手順を学習し、新しくシステム障害が発生した際に適切な復旧手順を示せるようにした。生成AIが示した復旧手順を人の目で確認し、問題がなければ実行する。「すべて人手で行うより大幅な時間短縮が期待できる」(同)としている。
復旧後の報告書作成においても生成AIは有用で、人の手で何時間も掛けて作成していた報告書を生成AIによって自動化できるとみる。ソフトの随時アップデートの浸透は、システム障害の頻度を押し上げる可能性がある中、「SIerをはじめとするビジネスパートナーと歩調を合わせて復旧業務の自動化や停止時間の短縮に取り組んでいく」(同)方針を示す。
(安藤章司)