日立製作所(古川一夫執行役社長)は10月6日、2000時間の録音データから3秒で特定音声を検索できる技術を開発したと発表した。

 今回の技術は、大規模な録音データの中から、任意のキーワードを含む音声を高い精度で高速に検索するもで、「音素記号インデックス(索引)を利用した高速検索技術」と「音声特徴量を利用した高精度な検索技術」の開発によって実現した。

 「音素記号インデックス(索引)を利用した高速検索技術」では、録音データを音素(音声の基本単位)の記号列に変換し、音素がどのタイミングで出現するかをインデックス(索引)として保存する方式を用いた検索を行う。今回、このインデックス処理を最適化し、不要なインデックスを削減することで、任意のキーワードを含む音声を高速に検索することが可能となった。

 「音声特徴量を利用した高精度な検索技術」では、音素による検索処理の後で、音声特徴量を用いたより精度の高い再検索を行う。今回、音声特徴量を用いた処理を2段階に分け、段階的に精度を高めながら合計3回の検索処理を行うことで、検索速度を損なうことなく高精度なキーワード検索を実現した。なお、音声特徴量の学習やシステム性能評価にあたっては、国立国語研究所、情報通信研究機構、東京工業大学が共同開発した「日本語話し言葉コーパス(CSJ)」を利用した。

 従来の音声検索技術には、録音データを音素の記号列に変換して高速にキーワードの照合を行う方式や、録音データの音声特徴量を解析し高い精度で照合を行う方式があったが、検索の精度や、照合処理に膨大な時間がかかるという問題があった。こうした背景から、日立では、音素の記号列と音声特徴量による検索方式を組み合わせ、任意のキーワードに対して段階的に照合を行うことで、大規模な音声データを高い精度で高速に検索する音声検索技術を開発した。今後、音声付き映像コンテンツの検索やコールセンターでの活用など、幅広い応用が見込まれる。

 同社では、今回の技術を、オーストラリアのケアンズで10月8日から10月10日まで開催される国際学会「IEEE Signal Processing Society 2008 International Workshop on Multimedia Signal Processing」で発表する。