システムの運用を効率化し、企業競争力の向上につながるアプリケーション開発と、事業部門のビジネス目標を達成するための「SRE(Site Reliability Engineering=システム信頼性工学)」の定着化支援にITベンダーが力を入れている。SREは、米Google(グーグル)が提唱したシステム運用の考え方から始まった。国内のユーザー企業に浸透させるため、日立製作所はSREの定着を主眼に置いたサービスを2023年6月にスタート。米New Relic(ニューレリック)日本法人はオブザーバビリティー(可観測性)の切り口で迫る。キンドリルジャパンはiPaaSによってSRE実践の支援を行っている。
(取材・文/大向琴音、安藤章司)
部門間の合意形成がかぎを握る
SREの考え方が広まったのは、グーグル社内におけるシステム管理とサービス運用の方法論を記した書籍「SRE サイトリライアビリティエンジニアリング-Googleの信頼性を支えるエンジニアリングチーム」が16年に出版されたことがきっかけだった(国内では17年、オライリー・ジャパン刊)。SREとは、システム開発・運用におけるチャレンジとシステムの安定稼働のバランスをとることを目的とした方法論であり、「SREの手法を採用することで、新規システム開発などに挑戦しやすくなるメリットがある」と、グーグル・クラウド・ジャパンの安原稔貴・技術部長(インフラ、アプリケーション開発、データベース)は話す。
グーグル・クラウド・ジャパン 安原稔貴 技術部長
開発と運用のバランスをとる上で重要になるのが、システムの不具合の発生がどの程度まで許されるかを定めた指標となる「エラーバジェット」である。例えば、1年間にエラーバジェットが30日間ある場合、30日まではシステムが落ちても問題がないとする。その分、開発に充てる余裕ができるといった具合だ。
残っているエラーバジェットを基に開発部門、運用部門、ビジネス部門のそれぞれでコミュニケーションをとり、積極的に開発できる状況なのか、逆に安定稼働のために開発を止めるべきなのかを把握する。
運用側ではしばしば、システムの安定的な稼働を追求し、システムが継続して稼働できる信頼性の目標を100%に設定してしまうことがあるが、安原技術部長は「SREにおいては、間違った考え方」と指摘。新規機能の追加などの変更作業によってシステムに不具合が起きるリスクを考慮すると、目標値を“信頼性100%”に設定すること自体が端から実現不可能な目標となりかねない。SREを実践するには、本当に必要かつ実現可能な信頼性のレベルを設定し、「運用、開発、事業部、そして経営者の合意を形成していくことが重要」と説明する。
SRE定着化のHARCサービスを逆輸入
日立製作所は、ユーザー企業へのSREの定着を主眼に置いたサービス「Hitachi Application Reliability Centersサービス(HARCサービス)」を23年6月に国内で始めたところ、24年3月末までに12件のプロジェクトを立ち上げるに至った。SREの考え方を取り入れたいと考えるユーザー企業は多いものの、「導入や定着に苦労しているのが実態」(クラウド&デジタルマネージドサービス部の酒井宏昌・担当部長)。その結果、「HARCサービスへの問い合わせや受注が予想を上回るペースで進んでいる」と手応えを感じている。
日立製作所 酒井宏昌 担当部長
SREの考え方が定着しにくい最大の原因は、システムの開発部門と運用部門の組織の壁に阻まれ、システムに関する情報が十分に共有できていない点が挙げられる。結果として、障害が発生しやすい温床を残すだけでなく、実際に障害が発生したときは修復に時間がかかる原因にもなる。この状況はエンドユーザーの体験を損ね、市場におけるビジネスの競争優位性を低下させてしまうことにつながる。
HARCサービスでは、開発と運用の両部門でシステムバックログを共有する仕組みづくりからスタートし、エラーバジェットに基づいて優先度を決めるルールづくりを、日立製作所とユーザー企業が一緒になって構築する。さらに一歩進んで、アプリケーションやクラウド、ネットワークなどの専門知識を持つ人員からなるSRE専門チームを組成して、開発や運用、ビジネス部門との情報の橋渡し役、交通整理を担えるよう伴走する。
SREは日立製作所の米国子会社のHitachi Vantara(日立ヴァンタラ)が22年2月にスタートさせ、この実績とノウハウを逆輸入するかたちで国内サービスを始めた。国内では新規案件の受注に加え、既存のプロジェクトも「導入アセスメント(事前調査)の段階から設計構築の支援、実運用へと進むプロジェクトの割合が増える」(酒井担当部長)ことから、本年度(25年3月期)のHARCサービス事業の売り上げ目標は前年度比80倍に設定。実運用フェーズの案件の増加に対応するため、ベトナムにHARCサービスの運用拠点を新設することも視野に入れる。
オブザーバビリティーを軸に支援
ニューレリック日本法人は、オブザーバビリティープラットフォームの提供などを中心に、ユーザー企業のSRE実践を支援している。ユーザー企業がオブザーバビリティーを導入することによって、システム障害や信頼性の状況を可視化できるのに加え、障害が起こった原因や、信頼性を高める修正案を把握できるようになる。また、ユーザー企業が設定したSLO(サービスレベル目標)に対し、目標の達成状況を簡単に確認できるようにする機能も提供している。
米ニューレリック日本法人 清水毅 部長
同社はオブザーバビリティー関連ツールの販売のみならず、オブザーバビリティー導入を支援する伴走サービスも手掛けている。清水毅・技術統括コンサルティング部部長は、「SREの実践がうまくいかずに、失敗するケースは少なくない」とし、SRE導入に際して同社が伴走してサポートする体制を整えている。
SREの実践における失敗理由の一つに、SLOを設定することがSREの本質との誤った認識にとらわれてしまうことが挙げられる。これにより、開発や運用、ビジネスの各部門間で合意がない状態でSLOを設定してしまい、結果的に順守できないという状況を生み出してしまう恐れがあるという。
米ニューレリック日本法人 齊藤恒太 部長
齊藤恒太・技術統括コンサルティング部兼プロダクト技術部部長は、「SREの目的を履き違えてしまうケースは今後さらに増えていくと考えられる」と話す。オブザーバビリティー導入やSLOの設定などに関する正しい情報を知ってもらい、適切にSREを実践してもらうために、市場への情報発信にも引き続き取り組んでいく姿勢を示す。
iPaaS上に世界規模の知見を集約
キンドリルジャパンは、システム運用プラットフォーム「Kyndryl Bridge(キンドリル・ブリッジ)」上で、アプリケーションの開発部門やシステム運用部門、ビジネス部門の連携を促進し、SREの実践を後押ししている。
キンドリルジャパン 澤橋松王 執行役員
Kyndryl Bridgeは、システム運用やオブザーバビリティー、セキュリティーなどに関してユーザー企業が導入している既存のツール群から情報を吸い上げ、システム運用全体をソフトウェアベースで行う仕組み。Kyndryl Bridgeによって各部門の情報格差をなくし、「会社全体で同じ情報を参照できるようにする」(澤橋松王・執行役員CTO兼CISO)ことで、SREを実践していくアプローチだ。
運用部門が注視するのはCPUやメモリー、ネットワーク機器といったハードウェア寄りの情報が多く、開発部門はアプリケーション寄り、ビジネス部門は顧客体験や業績に関心が向くため、各部門の連携が深まらず、SREの習熟度が高まらない悪循環に陥っているケースが見られるという。Kyndryl Bridgeは各種ツール群から情報を集め、それぞれの部門が必要とする情報を整理してダッシュボードに表示する。オンプレミスやクラウドで運用されているさまざまなシステムを一元化するiPaaS(Integration Platform as a Service)の機能をKyndryl Bridgeが果たすことで、システムのライフサイクルを可視化し、すべての部門がiPaaS上で情報を管理できるようになる。
米国に本社を置き運用サービスを世界展開しているキンドリルは、22年9月にKyndryl Bridgeを投入。翌23年7月にはユーザー数が500社に到達し、直近では1000社規模になった。Kyndryl BridgeはiPaaS上にユーザーの運用上の知見を集約することが可能で、「世界1000社のシステム運用の知見がデータとして蓄積されており、これを分析、活用することでよりスマートな運用を実現できる」と澤橋執行役員は話す。異なるベンダーのハードやソフト、ユーザーが独自に開発したアプリが複雑に絡み合う企業システムで、システム間の相性や潜在的な不具合などをいち早く見つけ出し、より信頼性の高いシステム運用を支援することでビジネスを伸ばす考えだ。