サイトアイコン マガジン航[kɔː]

池澤夏樹電子全集プロジェクトにたずさわって

昨年来、池澤夏樹の書籍が続々と電子化されているのを知っていますか?

2014年7月1日に発表されて、それからほぼ予定通りに進んできた。シリーズ名は impala e-books、発行は ixtan、製作・発売はボイジャー。著者の池澤夏樹さんをはじめとして、このプロジェクトにはたくさんの人々がかかわっている。私もそのなかのひとりで、製作のうちの、テキストの編集をし、それを電子ファイルに変換するところまでを担当している。大きなプロジェクトのごく一部を担い、半年あまり作業を続けてきた。

池澤作品のアーカイヴ

これを書いている2015年2月23日現在、すでに発売されているのは25冊、最終のチェック段階にあり、発売間近なものが2冊ある。ふつうの読書でも半年の間に一人の作家の作品を20冊以上読むのはかなりなことだと思うが、電子化のための編集となれば、池澤夏樹のテキストにまみれていると言っても全然おおげさではない。池澤さんの著書は厚いものが多い。どちらも底本で600ページを超えるふたつの長編小説『静かな大地』『マシアス・ギリの失脚』も入っているのだ。

ひとりの作家の作品が25冊まとまって読める状態になって、そこにある。『現代世界の十大小説』のように、紙の書籍と同時発売となった幸運な例もあるが、多くは品切れ状態だったものが蘇ったものだ。まだ小規模だとはいえ、これは池澤夏樹の作品のアーカイヴとしての機能を持つようになってきたと思う。

たとえば『現代世界の十大小説』の第一章「マジックなリアリズム ガブリエル・ガルシア=マルケス『百年の孤独』」を読めば、『マシアス・ギリの失脚』は池澤夏樹にとっての『百年の孤独』だということがわかる。またエッセイで緻密に書かれていることが、小説のなかにエピソードとして登場していることも発見できて楽しい。

もちろん読みかたは読者ひとりひとりに委ねられているから、どんなふうに読んでもいいのだが、作品が読める状態になければ、読書の楽しみは遠のく。それだけではなく、そのうち作品自体が忘れられてしまう可能性は意外に高いのだ。著作権保護期間が死後50年と定められている今だってそうなのだから、それが70年に引き伸ばされる見込みが強くなったことを考えると、金銭的な恩恵をうけると決まっているごく一部を除けば、作品の多くは存在自体が忘れられる可能性はぐんと高まるだろう。

電子化の底本には作業用の付箋がびっしり。

印刷されて出版された本は、品切れや絶版になっても、モノとしての本が古書として存在し続けている。今回も電子化にあたって必要な底本の何冊かは古書で入手できたわけだから、そのこと自体は喜ばしい。とはいえ、ほんとにそれだけでいいの? という疑問はふつふつと湧いてくる。

本は誰かに読まれたところで完了するメディアだと思う。読まれること、持続して読まれることを求めている。新刊書がひと月で書店からさっさと姿を消すことを前提に作られているのなら、読み継がれていくためにもっとも効果があるのは、著者自身が自作のアーカイヴを用意することではないだろうか、池澤夏樹さんのように。パソコンで書いているのなら、データはあるのだし、それを電子本にするためのツールだって、もはや実用の域に達している。古書だけの世界よりは電子ブックという別の選択肢があるのを本は喜ぶと思う。

OCRの読み取りは、200字にひとつ誤字がある

電子化の実際について書いておこう。

私に送られてくるのは、ほとんどは底本から OCR を経てテキスト化されたデータだ。電子本に変換するために使うのは Romancer というボイジャーが開発を続けているツールで、ユーザー登録すれば誰でも無料で使うことができる。このツールが変換のために要請しているのはマイクロソフトのWordのフォーマット、「.docx」だ。だから、まずはテキストをWordに取り込み、とりあえずは章や見出しのタイトルだけにスタイルを設定し、そして Romancer に登録して変換のボタンを押す。変換のための設定は使っているウェブブラウザーでおこなえる。

しばらくすると、同じブラウザーに縦書きで表示される(「池澤夏樹電子全集」ではそのように設定したわけで、もちろん横書きでも設定できる)。同時に EPUB のデータが生成される。このふたつをその後の文字校正およびテキストのレイアウトを決めるために使うのが私のやりかただ。いいやりかたなのかどうかは誰も教えてくれない。ひとまず縦書きになっていると、縦書きの底本との照合はやりやすい。見やすいがためについ見逃すこともあるのは悩みの小さな種子だったりするけれど。

OCR の精度は最低でも99.5パーセントと言われている。一瞬、すごい、と驚いたが、冷静に考えてみると200字にひとつは誤字があるということだから、チェックする立場からは、すごい、というよりは、ひどい、というほうが正しいだろう。しかも誤字は OCR にしかできない独特なものなのだ。

たとえば、「日本」が「臼本」となっていたのは、すぐに気づいて笑いながら修正した。でも「池澤」が「地澤」、「山羊」が「出羊」、「若者」が「著者」になっていたのなどは見逃した(もちろん、もっとある)。わかったあとでは、なぜ見逃したのか不思議なほどの誤植だが、チェックしているのは自分の人間としての眼と脳なので、機械の眼と脳に追いついていないのだろうと思う。だからチェックは一人で済ませるのではなく、二重体制になっている。

電子の本では、テキストは「一本の紐」

作品として書かれたテキストは最初の文字から最後の文字まで、順序ただしく連なっている一本の紐のようなもので、それを中断するようなことがあってはいけない。そしてそのことをほんとうに実感するのは電子の本を作るときだ。紙の本を編集するときにも常識としてはわかっているけれど、紙に印刷することでテキストが一度フィックスされてしまえばその後は動かせない。だから編集作業は一行ごとに「動かせない」ことを前提に進めてしまうし、またそうでなければ美しく仕上げられない。

電子の本では、テキストは本来の流動的な一本の紐のままだ。読む人が使う機器によってレイアウトは違ってくる。だから編集するときにまずこころがけたのは、どのような表示であっても、テキストの長い紐の流れが滞ってはいけないということだった。テキストのサイズや書体は紙の本の場合よりずっと限られているし、あくまでも相対的な(=絶対値が指定できない)ものだから、できるだけ単純に。

ルビはどこで改行されて区切られてもいいように一文字ずつ設定する。理念としては単純でわかりやすいけれど、実践は手間がかかる。熟語としてのいくつかの文字列にルビを設定する場合には、ほぼ自動で正確な読みかたが表示される。しかし一文字ずつだと、熟語としての読みかたはほとんど出てこない。だから手動で入力しなければならない。

底本にあるイラストや写真を入れる場所も、できるだけテキストの流れを邪魔しないように気をつける。紙の本ではテキストの途中に写真などが入っていても、全体の一部として視覚されるせいか、あまり気にならない。しかし、スマートフォンなど小ぶりなモニタで同じものを見る場合には、写真一枚だけがモニタいっぱいに表示されることが多い。そうなると、読んでいるテキストが写真によって分断されてしまう。だからテキストには写真を入れたいのはここ、というところが必ずあるが、ずばりそこに置きたい欲望は抑えて、少なくとも段落の後などの区切りのある部分に置くことにする。

プログラマーとの終わりなき共同作業

一冊の電子本を世に出すのは、プログラマーとの共同作業だ。彼らとともに、これまで24冊も制作作業を続けてきたのだから、Romancer の機能は確かに進化し続けてきた。そして進化にとって必要なのは過去の素材だということも確かなことだった。その成果のひとつは『小説の羅針盤』の日夏耿之介の章で見ることができる。

池澤さんのテキストにはいわゆる「外字」も使われている。Romancer は JIS X 0213 を基本としているので、 JIS X 0213 の範囲内の文字であるならば、そのまま変換される。JIS X 0213 の範囲外の場合でも日本語の文字ならば、多くの場合、自動的に画像として使った外字に変換してくれる(それでも変換できない場合は、エラーメッセージが出る)。背後でなんらかの自動処理がされているらしいが、つまりは Word で入力してちゃんと表示される文字ならばこちらとしては OK ということだ。

ところが、引用されている日夏耿之介の詩には見たことのない漢字がいくつかあるし、ほぼ総ルビなのだ。テキストデータでは入力できない漢字には、代わりに懐かしい「〓」という記号が入っている。その漢字をまず底本で確認して漢語辞典で調べ、JIS X 0213 にもないことがわかったら、それは画像にするほかない。しかもその漢字にはルビがふってあるのだ。だから画像にルビをふった。

とことんあきらめないで過去の遺産の再現を試みるのがプログラマーの心意気というもの。以下のページでその成果を見てほしい。どれがその漢字かわかるだろうか。未来はいつだって過去にあることを忘れてはいけないと、しみじみ思う。

日夏耿之介の詩の一節。このなかに一つ、JIS X 0213にもなかった「外字」があるのがわかるだろうか。

時にはページの上のゴミのような、テキストではないものをも OCR は最大限の努力でなんらかの記号に置き換えてくれる。それに気づかずに Romancer で変換をおこなうと、「文字化けの可能性がある文字が使われています」というエラーが出て、変換は途中でキャンセルされてしまう。OCR さま、働きすぎないでください、と言いたい。

最初に手にしたときからパソコンはずっと Mac を使ってきた。さらに、日頃はワープロソフトよりもテキストエディターを使っている。だから私と Word とはあまり相性がいいとはいえない。むしろ使うのを意識して避けてきたのに、最近では毎日つきあっている。あまり合理的な人生とはいえないが、おもしろい。冒頭に、池澤夏樹のテキストにまみれている、と書いた。それなのに、というべきか、それだからこそ、というべきか、池澤さんの新しい長編小説を読みたいと思い続けている。テキストの力とはそういうものなのだ。

■関連記事
早起き鳥は文学全集の夢をみる
震災復興を問いかける文字の力、映像の力 対談 池澤夏樹×森元修一
池澤夏樹さんに聞く、本と出版のこれから

執筆者紹介

八巻美恵
(編集者/青空文庫水牛
モバイルバージョンを終了