富士通研、大量文書から固有名詞を高精度抽出する技術を開発

ホーム
週刊BCN
ニュース
富士通研、大量文書から固有名詞を高精度抽出する技術を開発

ニュース

富士通研、大量文書から固有名詞を高精度抽出する技術を開発

2009/11/25 21:43

#富士通研究所 #富士通

　富士通研究所は、文章中から人名や組織名・地名などの固有名詞を高精度で抽出する技術を開発した。

　富士通研究所では単語抽出に必要な固有名詞辞書を文書データから自動的に生成する技術と、生成した辞書を使った抽出技術を開発。文書検索や固有名詞チェック、個人情報の匿名化などの作業を効率よく実施することが可能になった。

　固有名詞の抽出は、「学習フェーズ」と「抽出フェーズ」で処理。「学習フェーズ」では正解事例を基本にした規則をもとに固有名詞を抽出する。たとえば、前後の単語から得られる文脈情報を使い、人の名前と推測される単語に対しとなりの言葉が「さん」の場合は「人名」、「所属」の場合は「組織名」というように処理する。

　また、「富士」が「人名」、「富士通」が「組織名」のように一致する文字列を含む複数の固有名詞が辞書に登録されている場合には辞書で判別された人名候補より組織名候補が長い文字列と分析し、「組織名」に振り分ける。

　一方、「抽出フェーズ」では作成した固有名詞抽出規則を利用し、文章から固有名詞を抽出する。抽出では、「富士通市役所」のように固有名詞辞書を使うだけではなく、文脈情報も考慮して抽出を行う。

　そのため、「富士通大学」のような固有名詞辞書に登録されていない単語があった場合でも固有名詞として抽出が可能。抽出結果から辞書データを自動生成し固有名詞辞書に追加することもできる。

　新技術を利用することで、検索対象の文書から「川崎」のように「地名」にも「人名」にもなりうる単語に対し、意味の違いを区別した検索が可能になる。抽出結果を視覚的に表示するようにすれば、固有名詞の表記チェックや文書中の個人情報を匿名化する作業の支援もできるという。

　富士通研究所が行った人名抽出の実験では、新聞記事1件あたり、平均0.1秒で固有名詞を抽出。新聞記事から97％の精度で人名のみを正しく抽出できた。

　また、自動抽出で項目を追加した辞書を利用しない場合と比べ抽出ミスの数を60％近く減少させた。開発した技術は、新聞記事作成支援ソリューションで導入。2010年度後半に提供する予定。