「生成AI 搭載製品」の責任　芽吹き始めた品質保証

ホーム
週刊BCN
Special Feature
「生成AI 搭載製品」の責任　芽吹き始めた品質保証

Special Feature

「生成AI 搭載製品」の責任　芽吹き始めた品質保証

2026/04/16 09:00

週刊BCN 2026年04月13日vol.2100掲載

　AI技術の社会実装が急速に進む中で、その「正しさ」をどのように担保するかが企業の喫緊の課題となっている。特に対応を迫られているのが、生成AI機能を持つ製品やサービスだ。企業が提供するチャットボットの誤った回答が訴訟に発展し、損害賠償が発生した事例もある。生成AI搭載製品は大きな商機である一方で、安全に提供するためにはリスクを把握し、適切な対策を講じる責任がある。品質保証の取り組みが今、芽吹き始めている。
（取材・文／南雲亮平）

明らかになる新たなリスク

　生成AIを搭載した製品やサービスに関するリスクは、従来のソフトウェアとは根本的に異なる。ソフトウェアの品質保証では、あらかじめ定義されたロジックや仕様書に基づいてシステムの動作を確認する。特定の入力に対して特定の出力を返す仕組みのため、テストケースの種類を増やすことで検証範囲を広げることが可能だ。一方、生成AIは出力が確率的であり、確実な品質保証は現実的に難しい。この特性が、企業活動に甚大な影響を及ぼし得る複数のリスクを引き起こしている。

　一つは、外部顧客向けサービスにおけるリスクだ。実際にカナダの航空会社では乗客向けにサイト上で公開していたAIチャットボットが誤った割引条件を提示したことで訴訟となり、会社側が敗訴した。裁判では、航空会社がチャットボットの正確性確保のために適切な注意を払っていなかったとの指摘もあった。AIがハルシネーションで誤った情報を提示した場合、企業は「AIが勝手に言ったこと」と言い逃れはできず、その出力に対して説明責任を負うことになる。単なる技術的ミスでは済まされない。

　また、従来のソフトウェアと比較してAIモデルそのものの寿命が短い点も見逃せない。例えば、システムの基盤として利用される製品の代表格であるWindows OSは10年単位のサポートを提供しているのに対し、AIモデルは1年前後の短期間で古いバージョンの提供が打ち切られる場合もある。ソフトウェアのテストや品質保証を行うベリサーブで執行役員を務める松木晋祐・研究開発部部長は、生成AIを利用したシステムの中でAIモデルが新しいバージョンに更新された場合、「サービスとして提供するにあたって特定のタスクを実行するために用意した詳細な指示（プロンプト）がノイズとなり、AIが出力する成果物の品質を低下させるリスクがある」と指摘する。

　企業内での活用を想定した生成AI製品にもリスクがある。従業員による機密情報や個人情報の不用意な入力による漏えい、誤情報に基づいた資料作成による業務品質の低下だ。業務の根幹に関わる部分で活用する企業もあり、サービスの中断は導入企業の業務停止を招きかねない。

　さらに、近年のサイバー攻撃の標的にはAIも含まれる。AIに悪意のある指示を与えて機密情報の抽出や不適切な発言を誘発させるプロンプトインジェクションや、AIの振る舞いを決める根本の指示（システムプロンプト）を無視させ、差別的な発言や暴言を引き起こして企業の評判を損なうジェイルブレイクのリスクがある。

AIエージェントの統制も課題

　生成AIとともに普及が進むAIエージェントについて、NTTデータの星野統括部長は「統制をとるための仕組みを考える必要がある」と課題を指摘する。AIエージェントは、人間の監視が及ばない部分で自律的にタスクを進めることから、従来の生成AI搭載製品にはなかった外部サービスや重要なデータへのアクセス権限を持つようになる。すでにAIエージェント同士が資材調達をめぐって交渉する場面も現れている。「事故が発生した際の責任の所在も問題となり得る」として検討を急ぐ。

　また、生命や財産に関わる高リスク領域では、AIに全権を委ねるのでなく、「最終判断は専門家が行う」という工程をサービスに組み込むことが重要だと、ベリサーブの松木執行役員は強調する。

　AIは便利だが、最終的な責任を負えるのは、人間だけである。

AIプロダクト品質保証コンソーシアム
ユースケースで具体策を提示

　新たなリスクを伴う生成AI搭載製品・サービスの品質保証には、従来のソフトウェア向けの手法が通用しないため、異なるアプローチが必要となる。国立情報学研究所アーキテクチャ科学研究系の石川冬樹・准教授は、「LLM（大規模言語モデル）は確率的に動作するだけでなく、進化の速度も速い。そのため長期にわたって仕様を固定するのは極めて難しい」と指摘。続けて、「リリース前だけでなく、稼働後にも継続的な評価や管理が重要になる」との見解を示す。

　石川准教授が運営委員長を務めるAIプロダクト品質保証（QA4AI）コンソーシアムは、AI搭載製品を検証する具体的な手法を「AIプロダクト品質保証ガイドライン」としてまとめ、継続的に更新している。

　ガイドラインの中では、LLMを用いた個別システムの評価で重視すべき点などを項目別で紹介している。対象システムが扱うタスク固有の回答性能の評価の項目では、例えばコード生成AIの場合、生成されたコードのテストをパスする正確さ、無駄のなさ、読みやすさ、コーディング規定の順守などが評価基準となりうる。また、対象システム固有の知識に関する事実性や誠実性の評価では、RAG構築やファインチューニングといった手法で知識を組み込む場合に、参照する事実に沿った回答ができているかが重要な評価点となる。評価項目を具体的なシチュエーションごとに分けた理由について、石川准教授は「活用される場面や目的に加え、取り扱う情報の内容によって評価指針や許容範囲も異なる」と説明する。

　生成AI特有の品質モデルについて言及したものとしては、すでに国際規格「ISO 25059:2023（SQuaRE for AI）」や、総務省と経済産業省が策定した「AI事業者ガイドライン」などがある。ただ、石川准教授は「標準規格には今後10年経ってもおそらく変わらないことが書かれているが、現場のエンジニアはもっと具体的な情報を求めている」と、QA4AIコンソーシアムのガイドラインに個別案件の事例などを掲載する意図を語る。

　今後も掲載事例や評価軸を増やす方針で、将来的には、ガイドラインや事例を元にRAGを構築し、自然言語でユースケースごとに事例を検索できる生成AIの展開も検討している。

NTTデータ
膨大な知見を品質保証に生かす

　生成AIを搭載した製品の品質保証の手法を体系化し、パッケージとして提供する事業者が現れている。

　NTTデータは、企業のAI活用を推進する「アクセル」と、安全に制御する「ハンドル」の両軸を提供する「Responsible ＆ Secure AI」を展開している。

　このサービスは「AIガバナンスコンサルティングサービス（統制）」「AI Assuranceサービス（評価・堅牢化）」「AI Protectionサービス（防御・検知）」という三つの要素で構成される。

　統制は活用指針となるルールやポリシー策定を支援し、単なるドキュメント作成だけではなく、実際のプロジェクト運営に必要なノウハウも提供することで、現場に即したAIの運用体制の整備を目指す。

　評価・堅牢化では、AI固有のリスクや脆弱性を、実際の攻撃手法に基づいた疑似攻撃で診断し、対策を講じる。防御・検知ではAIガードレールを活用し、生成AIへの入力と出力をリアルタイムで監視することで、脅威からAI利用者やAI搭載製品自体を保護する。これら3要素は、個別に提供することも可能だ。

　ソリューション事業本部セキュリティ＆ネットワーク事業部の星野亮・統括部長は、「2020年ごろに専任のAIガバナンス室を設置し、自社グループ20万人がAI活用の“クライアントゼロ”としてトライ＆エラーを重ねてきた知見を生かして開発した」と語る。

　生成AIを搭載した製品やサービスを提供する際は、継続的に管理する仕組みも併せて用意するのが理想だが、予算や人手の制約で難しい場合は、安全なプラットフォームを活用する選択肢もある。同社が提供する業務特化型AI開発基盤「LITRON Builder」には、Responsible ＆ Secure AIと同様の仕組みが導入されている。ユーザー企業が開発したAIエージェントは、「Library」機能を通じて他社に共有することも可能。開発元企業との関係性や収益分配の在り方については現在検討を進めているという。

ベリサーブ
かぎを握るのは「マネジメント」

　ソフトウェアの品質保証を手掛けてきたベリサーブも、生成AI搭載製品の品質を評価・改善し続けることの重要性を呼び掛けている。松木執行役員は、「AIを使い始めるのは簡単だが、継続的な活用には多くの工夫が必要になる。そのノウハウはまだ広く知られていない」と指摘する。

　同社が特に重視しているのがマネジメントだ。松木執行役員は、社会の発展段階ごとに重視されてきた能力の変遷について、原始時代からの「力の時代」、産業革命以降の「知識の時代」を経て、AIが登場した現在は「『マネジメントの時代』に突入した」とみている。AIの動きを見ながらより良い方向にマネジメントする能力が、次の成長に繋がるという考えだ。

　同社では、「測定できないものは管理できない」という原則に基づき、AIの挙動を常に監視し、評価・改善する仕組みを提供している。出力された成果物を評価するには、事前に基準となる「正解のデータ」を用意し、出力がどの程度正解に近いのかという評価指標と、許容できる限界値を設計し検証する。

　精度を向上させるためには数千件規模で評価を行う必要があるため、同社はAIがAIを評価する仕組みを用いた自動評価システムを活用している。松木執行役員は、「ユースケースごとに評価内容が変わるため、このシステムは顧客や案件ごとにオーダーメイドで構築している」と説明する。本番環境でも評価システムを稼働させることで改善サイクルを回し続け、継続的な品質向上をサポートする。

　松木執行役員は、「今はちょうど転換点にある。SIer各社のAIに対する姿勢が変わりつつあり、2年後には当社が展開するサービスと近いものを提供する事業者がもっと増えているはず」と展望する。現在は相談があった企業に対して個別に提供しているが、今後、地方の自治体や企業についてはパートナーと連携したサポート体制の構築も計画する。