Special Feature

SRE実践の課題は何か 部門の壁をなくし、「信頼性」と「ビジネス」をつなぐ

2024/04/22 09:00

週刊BCN 2024年04月22日vol.2011掲載

 システムの運用を効率化し、企業競争力の向上につながるアプリケーション開発と、事業部門のビジネス目標を達成するための「SRE(Site Reliability Engineering=システム信頼性工学)」の定着化支援にITベンダーが力を入れている。SREは、米Google(グーグル)が提唱したシステム運用の考え方から始まった。国内のユーザー企業に浸透させるため、日立製作所はSREの定着を主眼に置いたサービスを2023年6月にスタート。米New Relic(ニューレリック)日本法人はオブザーバビリティー(可観測性)の切り口で迫る。キンドリルジャパンはiPaaSによってSRE実践の支援を行っている。
(取材・文/大向琴音、安藤章司)
 

部門間の合意形成がかぎを握る

 SREの考え方が広まったのは、グーグル社内におけるシステム管理とサービス運用の方法論を記した書籍「SRE サイトリライアビリティエンジニアリング-Googleの信頼性を支えるエンジニアリングチーム」が16年に出版されたことがきっかけだった(国内では17年、オライリー・ジャパン刊)。SREとは、システム開発・運用におけるチャレンジとシステムの安定稼働のバランスをとることを目的とした方法論であり、「SREの手法を採用することで、新規システム開発などに挑戦しやすくなるメリットがある」と、グーグル・クラウド・ジャパンの安原稔貴・技術部長(インフラ、アプリケーション開発、データベース)は話す。
 
グーグル・クラウド・ジャパン 安原稔貴 技術部長

 開発と運用のバランスをとる上で重要になるのが、システムの不具合の発生がどの程度まで許されるかを定めた指標となる「エラーバジェット」である。例えば、1年間にエラーバジェットが30日間ある場合、30日まではシステムが落ちても問題がないとする。その分、開発に充てる余裕ができるといった具合だ。

 残っているエラーバジェットを基に開発部門、運用部門、ビジネス部門のそれぞれでコミュニケーションをとり、積極的に開発できる状況なのか、逆に安定稼働のために開発を止めるべきなのかを把握する。

 運用側ではしばしば、システムの安定的な稼働を追求し、システムが継続して稼働できる信頼性の目標を100%に設定してしまうことがあるが、安原技術部長は「SREにおいては、間違った考え方」と指摘。新規機能の追加などの変更作業によってシステムに不具合が起きるリスクを考慮すると、目標値を“信頼性100%”に設定すること自体が端から実現不可能な目標となりかねない。SREを実践するには、本当に必要かつ実現可能な信頼性のレベルを設定し、「運用、開発、事業部、そして経営者の合意を形成していくことが重要」と説明する。
この記事の続き >>
  • SRE定着化のHARCサービスを逆輸入
  • オブザーバビリティーを軸に支援
  • iPaaS上に世界規模の知見を集約

続きは「週刊BCN+会員」のみ
ご覧になれます。

(登録無料:所要時間1分程度)

新規会員登録はこちら(登録無料)

会員特典

詳しく見る
  1. 注目のキーパーソンへのインタビューや市場を深掘りした解説・特集など毎週更新される会員限定記事が読み放題!
  2. メールマガジンを毎日配信(土日祝をのぞく)
  3. イベント・セミナー情報の告知が可能(登録および更新)
    SIerをはじめ、ITベンダーが読者の多くを占める「週刊BCN+」が集客をサポートします。
  4. 企業向けIT製品の導入事例情報の詳細PDFデータを何件でもダウンロードし放題!
  • 1