視点

アマゾン書籍全文検索の実力

2005/11/21 16:41

週刊BCN 2005年11月21日vol.1114掲載

 去る11月1日、アマゾンジャパンが書籍の全文検索サービスを始めた。試してみると、検索対象となるテキストの精度がはなはだ悪い。だが、万単位の書籍をOCR(光学式読取装置)で読み取った力業の威力はそれでも十分感じられる。本に蓄積された知識を電子化することがいかに膨大で困難な作業であるか、同時にそれによって得られるものがいかに大きいかを感じさせる試みだ。

 「なか見!検索」と名付けられたこのシステムは、米アマゾンが、2003年10月から行ってきた「Search Inside the Book(サーチインサイドザブック)」の日本語版である。スタート時点でカバーできたのは、許諾を得られた約280社の13万冊分。従来からあるトップページの検索窓で「和書」を選び、思いつくキーワードを入れると、書名、著者名のみを対象とした検索結果に加えて、本文の検索結果が出てくる。ヒットすると、キーワードを含む短い一節が添えられる。アマゾンで何か買ったことがある人なら、さらにキーワードの現れる箇所の前後5ページ分を画像データで読める。

 OCRの読み取りには、形の似通った文字への入れ替わりが付き物だ。引用箇所を読んでも、間違いの起こりそうなものを狙って検索してみても、この手の誤植が検索対象中に溢れ返っているのがわかる。

 「祇園」に関する書籍では、肝心のこの文字を正しく読みとった73か所に対して、「砥園」と誤ったのが129か所。情報科学の入門書では、「コンピュータ」が16か所に対して、「ン」を「ソ」と取り違えた「コソピュータ」が105か所。漢字を片仮名に入れ替えた「タ暮れ」、片仮名を記号に変えた「□シア」、漢字に変えた「口シア」でもヒットするし、「シ」が「ン」に化けた「ンルクロード」や「ンナジー」でも検索結果が得られる。「コンパイラ」は難物らしく、読み取り結果は「コン,マイラ」「コン’マイラ」「コン/マイラ」と多様だ。

 人が読むためのテキストとしてなら、「なか見!検索」のデータは失格だ。だが、キーワード検索なら、これでもとりあえず役に立つ。さまざまな角度から類書をリストアップできる新しい世界が、この程度のデータから開ける。まずははじめること。コスト削減のために、見切りを求められることの多いプロジェクトだろうが、改善のために打てる手は確実にある。
  • 1