視点

青空文庫が消える日

2007/07/30 16:41

週刊BCN 2007年07月30日vol.1197掲載

 7月7日、立ち上げから関わってきた青空文庫が、設立10周年を迎えた。この間、作業に関わった680名が電子化した作品数は、6345点。財政と組織を欠いたボランティア集団のちっぽけな成果だが、ここまでは果たすべき役割があったのだと思う。では、今後は。その問いに答えを出しかねないアナウンスが、奇しくも前日にあった。

 Googleは6日、世界の主要な図書館と進めるプロジェクトに、慶應義塾大学図書館が加わったと発表した。日本からは初。同館所蔵の200万冊を超える蔵書のうち、約12万冊を電子化し、順次、「ブック検索」から閲覧できるようにする。青空文庫10年の6345点には、実は水増しがある。ごく短い作品も1と数えており、冊数に換算すれば確実に1桁は落ちる。一方の12万冊は、掛け値なしだ。

 国立国会図書館の近代デジタルライブラリーはすでに、明治、大正期刊行の書籍、14万3000冊のページ画像を公開しているが、ブック検索には、書籍本文に対して検索がかけられるという大きな魅力が加わる。ベースは同じくページ画像でも、その上にトレーシングペーパーをかぶせ、OCRで読みとったテキストを配置した形の「透明テキスト」が付く。「福澤諭吉」という画像の上に、「福澤諭吉」のテキストがのる。これで検索が効いて、ページ画像の当該位置が、ハイライトされる。こうした高度な機能が、桁違いの量の書籍に提供されると明らかになったなかで、青空文庫にはなお果たすべき役割が残されているだろうか?ないのなら、ボランティア集団には、絆を解いて消えることも許されるだろう。

 ページ画像と透明テキストの組み合わせによるアプローチは、すでにAmazonが「なか見!検索」で採用している。「なか見!検索」「ブック検索」で、漢字の「口」に「シア」と続け、「口シア」で検索してほしい。「誤入力は敵」と考えて10年間作業してきた者にとって、両プロジェクトのOCRの精度はあまりに低く思える。だが「OCRかけっぱなしで、校正はしない」という腹の括り方こそ、大量の書籍に検索の網をかけるための、「戦略的妙手」だったのではないかとも、同時に考える。誤読みとりのなかに正解が混じれば、ヒットはするのだ。

 作品と作家に対する敬愛のみを力の源泉とし、字面を這う校正で正確なテキストを目指す青空文庫にはまだ、果たすべき役割がある。
  • 1