Googleに頼らず日本語書籍の全文検索を

2010年11月8日
posted by 沢辺 均

10月29日に「全文テキスト化実証実験参加協力会社との定例会(第1回)」が開かれた。これは、私流の言い方をすれば、2009年6月ごろから、境真良さん(経済産業省)や版元ドットコムのメンバーたちと話していて、ひょっこり生まれた「ジャパニーズ・ブックダム」が、長い相談や準備をへてやっと最初の一歩を踏み出したものだ。

もちろん、国立国会図書館には国立国会図書館の計画があって、たまたまそれがリンクして始まったものという位置づけだろうし、今回参加した出版社もそれぞれの計画のなかの一つとして参加しているわけだ。

「マガジン航」からの求めがあったので、以下に、ここまでの経緯をまとめてみた。

「ジャパニーズ・ブックダム」構想のはじまり

ジャパニーズ・ブックダム計画がなんとなくイメージできた当時は、まだGoogle問題が出版界を中心に話題になっていたころだ。

ポット出版は「Googleの書籍デジタル化への集団訴訟和解案について」という考えを公表した。「ポット出版は、ポット出版が発行した書籍の全文を対象にした検索が実現することを歓迎します」という趣旨。

ジャパニーズ・ブックダムは、この考えから一歩進めて、Googleに頼らず、日本国内でも日本語の書籍のための全文検索→一部表示を実現したい、という計画だ。そして、すでに国立国会図書館がすすめていた「資料のデジタル化」がこれを成立させる条件になるのではないか、と考えたのだ。

リーマン・ショックを受けた補正予算で127億円の補正予算がついて、1968年までの書籍や一部雑誌のスキャニングができることも、注目をあつめたポイントだった。

この国立国会図書館の「資料デジタル化」は、壊れたり、破れたりしそうな資料をスキャニング(むかしはマイクロフィルム化)して、館内での閲覧に現物のかわりに提供してよい、という著作権法改正をうけて行われた。壊れたり、破れたりするはるか以前から、あらかじめスキャニングしてよい、というもの。ただ、出版業界の代表との具体化の相談の過程で、OCRはかけない、という合意もしていた。

全文テキスト化実証実験に39社が参加

そこで、出版社一社一社が合意することで、OCRをかけて、全文検索できるようにしよう、というのがジャパニーズ・ブックダム計画の中心点だ。国立国会図書館や有志出版社で、いくつかの出版社に働きかけて、2010年7月20日に募集の記者発表、10月12日時点で以下の出版社が実験としての取組みに合意をて実験が開始され、今回の定例会開催となった。

事前の働きかけを行ったのは、大手から中小零細までの出版社に、数は少なくともできるだけまんべんなく集まってもらいたいと考えたからだ。実験は、紙の本からのスキャニング/紙の本の印刷用のデータ/電子書籍から、テキストを抽出し、章節項などのタグ付けをおこなって、全文検索できるようにして、その一部を、国立国会図書館館内で表示させることをめざしている。働きかけの結果は、上記からわかるように大手から中小零細まで、さまざまな出版社が参加して、実験の名に恥じないものとなった。

一方で、その過程で「長尾構想」への出版界の反発の大きさも思い知らされた。

反発の主なポイントは、「週刊ダイヤモンド」(10月16日号)電子書籍特集の長尾構想をめぐる記事(p60)や、出版新聞業界紙「文化通信」11月1日号(3907号)掲載の「国会図書館のデジタル化構想、出版業界からの提案をすべき」(対談:村瀬拓男弁護士×沢辺均)での村瀬さんの紹介がわかりやすい。

この先は、実証実験をへて考えることになるが、ジャパニーズ・ブックダム計画の立場で言えば、「全文検索→一部表示」を、国立国会図書館館内にとどめるのではなく、ネットワークでだれにでも見ることができるようにすることと、販売サイトなどの紹介(リンク)などだ。

今回の定例会は、こうしたジャパニーズ・ブックダム=「全文テキスト化実証実験」をすすめるための出版社と国立国会図書館との実験をめぐる相談の場だ。

私自身、できるだけ情報をオープンにして、出版/図書館業界だけでなく、すべての方々と議論していきたいと思っている。