Special Issue
CyCraft Japan 生成AI時代の重大脅威の「盾」となる二つのセキュリティーソリューション
2025/11/27 09:00
週刊BCN 2025年11月24日vol.2083掲載
悪意あるプロンプトで生成AIを乗っ取る プロンプトインジェクションの脅威
生成AIが企業や人々に創造性や生産性をもたらす一方、さまざまなリスクが指摘されている。AIが誤情報を生成するハルシネーションのリスクに加え、セキュリティーリスクはより深刻化している。例えば、悪意のあるプロンプトを通じての誤情報の生成、システムの不正利用などを行うプロンプトインジェクションや、開発者が設定した倫理的制約や安全対策を回避させ、開示してはならない情報の出力などを行うジェイルブレイクなどの攻撃手法だ。いずれも巧妙なやりとりを通じて、生成AIを不正に操作する。
Country Manager, Japan and Korea
Webアプリケーションの脆弱性をまとめているOWASP(Open Worldwide Application Security Project)が2025年に公開した生成AIに関するセキュリティーリスクトップ10では、プロンプトインジェクションが最上位に位置付けられている。
しかし、こうした脅威への対策には課題がある。生成AIやLLMを介した出力はブラックボックスに近く、同じ質問でもタイミングや状況により異なる回答を出力するため制御が難しい。そのため、継続的に有効性を検証していく必要がある。
AIアプリケーションの隣で不審なプロンプトに目を光らす
姜カントリーマネージャーは「生成AIを活用しつつ、安全性を高める仕組みが必要」とみる。AIらしさを失うことなく、いかに安全性を高めるかがポイントで、「AIを守るために過剰に制限をかけると創造性や対話力が損なわれ、自由にしすぎるとリスクを増やしてしまいかねない。このバランスが大事」と姜カントリーマネージャーは話す。そうして生まれたのがXecGuardとXecARTだ。
XecGuardは直接導入が可能なガードレール型セキュリティーモジュール。既存のAIアプリケーションの隣に設置され、有害コンテンツの検出だけでなく、文脈指示従属性を組み合わせることで個別のアプリケーションのルールを理解し、それに違反または回避しようとする文脈を識別する。
AIアプリケーションがプロンプトを受け取ると、一度、XecGuardを介して判断し、不審なプロンプトの入力やガードレールを逸脱する要求があればブロック。「OpenAI」や「Gemini」などのLLMにわたる仕組みで、AIアプリケーションのそのものに変更を加える必要がない。
また、XecGuardの応答速度はミリ秒単位なので、AIアプリケーションの性能にも影響を与えない。あたかも記者会見における芸能人の広報担当者のように、悪意ある誘導質問が入力されたら即座に会話を遮り、AIアプリケーションを保護するのだ。
攻撃者視点でAIシステムの安全性を評価 国際的な基準への適合も支援
XecARTは生成AI向けシステムセキュリティー評価サービス。金融や公共分野の顧客からの「AIシステムを第三者の視点で検証したい」「内部統制の一環として定期的に安全性を確認したい」といった要請から開発された。従来のペネトレーションテストやレッドチーム演習の生成AI版との位置付けで、特にプロンプトインジェクションに対する防御能力を評価する。外部からの攻撃耐性だけではなく、認証の堅牢性、異常事態における対応能力を総合的に診断し、システム全体の防御レベルを向上させることが可能だ。OWASPやISO、NISTおよび各国の規制機関のガイドラインに基づいたAIシステムセキュリティーに関するコンプライアンス監査レポートを作成し、国際的な基準への適合を支援する。
実際のXecART実施スケジュールは、あらかじめAIチャットボットのAPIと接続方法などの情報を収集した上で、テストの実施、報告および改善提案に至るまで、2~4週間が目安となる。実際のテストでは、AIの特性や用途に応じて動的にシナリオを変えている。
姜カントリーマネージャーは「XecARTにより脆弱性を可視化・スコア化。XecGuardでは運用上の保護を迅速に実装し、調整する」と説明する。今後の展開については、「CyCraft JapanはAIの安全な社会実装を支える信頼のレイヤーとして、同じ志を持つパートナー様とともに、AI時代にふさわしい防御モデルを共創し、社内全体のセキュリティーレジリエンスを高めていきたい」と話す。
- 1
