日立、2000時間の録音データから3秒で特定音声を検索できる技術

ホーム
週刊BCN
ニュース
日立、2000時間の録音データから3秒で特定音声を検索できる技術

ニュース

日立、2000時間の録音データから3秒で特定音声を検索できる技術

2008/10/07 21:10

#日立製作所

　日立製作所（古川一夫執行役社長）は10月6日、2000時間の録音データから3秒で特定音声を検索できる技術を開発したと発表した。

　今回の技術は、大規模な録音データの中から、任意のキーワードを含む音声を高い精度で高速に検索するもで、「音素記号インデックス（索引）を利用した高速検索技術」と「音声特徴量を利用した高精度な検索技術」の開発によって実現した。

　「音素記号インデックス（索引）を利用した高速検索技術」では、録音データを音素（音声の基本単位）の記号列に変換し、音素がどのタイミングで出現するかをインデックス（索引）として保存する方式を用いた検索を行う。今回、このインデックス処理を最適化し、不要なインデックスを削減することで、任意のキーワードを含む音声を高速に検索することが可能となった。

　「音声特徴量を利用した高精度な検索技術」では、音素による検索処理の後で、音声特徴量を用いたより精度の高い再検索を行う。今回、音声特徴量を用いた処理を2段階に分け、段階的に精度を高めながら合計3回の検索処理を行うことで、検索速度を損なうことなく高精度なキーワード検索を実現した。なお、音声特徴量の学習やシステム性能評価にあたっては、国立国語研究所、情報通信研究機構、東京工業大学が共同開発した「日本語話し言葉コーパス（CSJ）」を利用した。

　従来の音声検索技術には、録音データを音素の記号列に変換して高速にキーワードの照合を行う方式や、録音データの音声特徴量を解析し高い精度で照合を行う方式があったが、検索の精度や、照合処理に膨大な時間がかかるという問題があった。こうした背景から、日立では、音素の記号列と音声特徴量による検索方式を組み合わせ、任意のキーワードに対して段階的に照合を行うことで、大規模な音声データを高い精度で高速に検索する音声検索技術を開発した。今後、音声付き映像コンテンツの検索やコールセンターでの活用など、幅広い応用が見込まれる。

　同社では、今回の技術を、オーストラリアのケアンズで10月8日から10月10日まで開催される国際学会「IEEE Signal Processing Society 2008 International Workshop on Multimedia Signal Processing」で発表する。