NTTテクノクロスは、音声認識ソフトウェア「SpeechRec Server(スピーチレック サーバー)」の新バージョンを11月19日から販売する。SpeechRec Serverは、NTT研究所が新たに開発した音声音響処理、自然言語処理などの情報処理を人間の脳と同じようにオールインワンで可能にするAIを活用。これにより、高精度な音声認識を実現した。

「SpeechRec Server」による音声情報処理のイメージ

 SpeechRec Serverの新バージョンでは、NTTコンピュータ&データサイエンス研究所の次世代メディア処理AI「MediaGnosis」を活用した音声情報処理としてエンドツーエンド方式を採用。これまで一部の音声情報処理のみに適用していたディープニューラルネットワーク(DNN)を全てに適用し、音声データ入力からテキスト出力までをオールインワンで実現している。

 MediaGnosisにより、相づちや「えー」「あのー」などのつなぎ言葉に加え、「私なんかは」などの話し言葉特有の表現を認識し、話の意味を理解しやすいようなテキストに変換。また、テキスト化された情報を内容ごとに分類して表示することもできる。複数の人が話す場合、それぞれを識別するために事前に音声を登録したり、マイクを分けたりする必要がなく、話者の声質や波形などの特徴からMediaGnosisが自動で話者を識別する。