東芝は、音声対話の理解を高度化する未知語理解AIを開発した。ユーザーの発話のなかに、システム辞書の中に存在していない単語「未知語」が含まれる場合でも未知語を検出し、キーワードや文脈から未知語の属性を推定し、学習する。この技術を使うことで公開データベースを使った検証を行ったところ、世界トップの0.883の推定精度を達成した。


 音声対話システムを利用した業務支援サポートの要望が高まっている。しかし、現場で使われている業界特有の専門用語の表現、略語を全てシステムに学習させることは難しく、また未知語のまま残ると、現在の音声対話システムでは「わかりません」と答えて対話が終了するか、別の単語と間違えて対話が破たんしてしまう。

 東芝は、未知のキーワードを正確に抜き出し、その意味を理解することによって、ユーザーに既知のキーワードに近い発話を促すことや、未知のキーワードをその場で学習する未知語理解AIを開発した。

 例えば、ユーザーが「ふわっとリングが食べたい」と言った場合には、未知語である「ふわっとリング」というキーワードを抽出し、「~が食べたい」という文脈から、それが食べ物であるという属性に分類して未知語を理解。その結果を踏まえてユーザーへ応答することができる。
 
未知のキーワードに対する音声対話システム

 開発した未知語理解AIは、発話された文章をキーワード部分と文脈部分に意図的に切り分けて処理することで、既知、未知のキーワードに対して属性を判断し、高精度な発話理解を実現した。

 また、従来のシステムでは、属性の判断にキーワードを重視する手法が用いられていた。「ふわっとリングが食べたい」という文章の場合、未知のキーワードである「ふわっとリング」をシステムが認識することができず、属性を判別できずに終わるか、キーワードを「リング」と認識し、属性がアクセサリーであると誤った判断をする可能性があった。

 それに対し未知語理解AIは、未知のキーワードでも検出可能とし、その属性を判断する手法を開発。まず、学習時に文章のキーワード部分をランダムにさまざまな言葉に置き換え、キーワード位置を検出するニューラルネットワークを学習することで、文脈を重視したモデルを学習し、未知語であってもその部分がキーワードであることを検出する。

 検出したキーワードの属性は、「キーワードの特徴を抽出」「文脈の特徴を抽出」「その特徴を統合して属性を推定」する三つのニューラルネットワークを用いて推定。キーワード検出の結果を使って発話された文章をキーワード部分と文脈部分に切り分け、キーワードの特徴と、文脈の特徴を抽出する。そして、これらを統合するニューラルネットワークで、どちらの特徴を重視するかといった重みを計算し属性を判定する。「ふわっとリングが食べたい」という文章の場合は、「~が食べたい」という文脈を重視し、「ふわっとリング」の属性が食べ物であると判別する。

 未知語理解AIをレストラン検索の音声対話公開データベースを使って、キーワードの検出とその属性推定精度を評価指標F値で評価したところ、既知キーワードのみで構成される文章の推定精度を維持したまま、未知語を含む文章に対する推定精度が既存手法の0.764から実用レベルの0.883に大きく向上した。
 
保守点検の対話例

 東芝は今後、未知語理解AIを東芝コミュニケーションAI「RECAIUS(リカイアス)」が提供する各種の音声対話サービスに適用していく計画だ。