本のワンソースマルチユース制作
〜その理論・実践・未来

2016年3月14日
posted by 小林徳滋

はじめに

電子版の売上が増えるにつれて、印刷・製本した本(紙版)とEPUBを主とする電子版を同時に発売するサイマル出版が重要になる。筆者は2010年からWeb上で紙の本のためのPDFとEPUBなどを一つの原稿からワンステップで作成する(ワンソースマルチユース)制作システム(CAS-UBという)を開発してきた。そしてCAS-UBを使って『PDFインフラストラクチャ解説』を執筆し、プリントオンデマンド書店と電子書店(Kindle ダイレクト・パブリッシング)より発売した。

pdf-infra-cover

本書はB5判、268頁、図版(ブロック画像110個)と表(35個)、参考文献一覧(156項目)、索引(648項目)、多言語(本文中にデバナガリ文字の組版を含む)、表中・行中画像(44個)を含む。本書のPOD用PDFはカバーを除き、プログラムで自動的に作ったものである。KDP版はカバーを含めワンクリックで生成した。ここでは専門的な本を作るシステムを開発し、執筆した経験を元に、本のワンソースマルチユースを実現するポイントを解説する。

現状と課題

現在、紙版とEPUB版を出版するために採用されている主なワークフローは、

①DTPで印刷用PDFを校了し、
②そのDTPまたはPDFデータを素材としてEPUBを作る、

という二段階方式である。この方式でサイマル出版するには、紙版の校了から配本までの期間にEPUB版の制作と配信準備を完了しなければならず、日程がタイトな綱渡りになる。また、制作・校正などの作業が二重になるため時間・工数・作業費・管理費が増え、ソースが二元化する、など問題が多い。

ワンソースマルチユース方式を実現できれば、これらの問題はすべて解決できる。しかし、ワンソースマルチユース方式は現実にはあまり普及していない。なぜだろうか?

DTPでは、原稿を画面上で対話的にレイアウトし、画面で見たままのレイアウトをPDFにする(WYSIWYGという)。DTPソフトは、その仕組み上、編集機能とPDF出力機能が完全に一体である。編集されたデータはこれらの機能に依存しているため、データを他のツールと交換し、PDFのためのレイアウト指定を切り離して、EPUBのためのレイアウトに付け替えるのは難しい。

DTPソフトの代表格であるInDesignは、機能が高く、高度なレイアウトができ、しかも使用料金が安い。InDesignを使えば、少しのお金と少しの勉強で誰でも本の組版を始められる。『本を生み出す力』(佐藤郁哉・芳賀学・山田真茂留著、新曜社)には、一人で毎年多数の専門書を出版している一人出版社の事例が報告されている。20年以上に渡りDTPを駆使して新刊の組版をすべて自前で行ってきたという。

本を作る新しい仕組みは、DTPソフトの機能を凌駕する一方で、DTPソフトのコストを下回らねばならず、さらに長くDTPを使ってきた人たちにも受け入れられる操作性を実現しなければならない。いまのところそれを実現しているシステムは少ない。

ワンソースマルチユースのポイント

ワンソースマルチユース成功のポイントはDTPとは真逆にすることである。つまり、

・原稿を編集してソース文書を制作する仕組み、ソース文書自体、PDFやEPUBなどの成果物を作る仕組みをできるだけ分離する。
・ソース文書を中核とする。

ソース文書を制作する仕組みや、ソース文書からPDFやEPUBを作る仕組みがソース文書の形式に依存するのは避けられない。逆にソース文書には成果物のかたちに依存する情報を含まないようにしたいが、これはなかなか難しい(詳細は後述する)。

DataFlow

ソース文書の形式はXML文書が最もよい。XML文書は、文章の内容にタグを付けて構造的に表現する。詳しいことは日本電子出版協会(JEPA)のebookpedia「XML」を参照されたい。XML文書はアメリカ映画『トランスフォーマー』に登場する金属生命体のような存在である。タグをキーとして使って、プログラムで文書のかたちを自由自在に変形する。ソース文書を、あるときはPDF、あるときはEPUBとして具現化させるのである。この方式は本質的にWYSIWYGにできない。

最近、XMLの代わりにHTML5を使おうという動きが出てきた。O’Reilly MediaのHTMLBookはその一つである。たしかに、HTML5は属性を拡張できるのでメタ言語的にも使えそうである。しかし、HTML5による文書処理技術は確立していない。たとえば、XMLではタグが規則通りについているかどうかを検証する方法論とツールが確立している。しかし、HTML5にはそうした仕組みがない。不正なデータが検出されずに通り抜けてしまうなどの問題が起きるだろう。

ソース文書の編集制作方法

XML文書ならば制作手段とできあがった文書を独立にできる。そこで、原稿からどのような方法を使ってソース文書を制作してもよい。プログラマはテキスト・エディタを使って原稿にマークアップするのを好む(マークアップとはタグを付けることである。詳しくはebookpedia「マークアップ」を参照)。本格派はoXygen、XMetaLなどのXMLエディタを使うであろう。

XMLエディタを使いこなすには、ツールを用意するのは無論、XMLに関する基礎知識の学習、タグの付け方に関する訓練が必要であり、敷居が高い。欧米では、原稿をXML文書として制作する工程をインドなどにアウトソースする例が多いようだ。フランクフルト・ブックフェアなどの出版関連展示会に行くとインド系制作会社がブースを並べている。

しかし、日本では途上国へのアウトソースは難しいのではないだろうか? 最大の理由は、日本語がわかる制作者が少ないため、仕事の指示などのコミュニケーションがとりにくいことである。そこで、より簡単な方法を考える必要がある。

Microsoft Wordで文書を書いて、XML形式に変換する方法はポピュラーである。最近、流行っているのは簡易マークアップ方式である。これは自然言語で書いたプレーンなテキスト中に、アスキー記号をマークとして埋め込んで、記号の種類と文脈からタグを生み出す仕組みである。

CAS-UBを開発するにあたり、CAS記法という簡易マークアップを開発した。これはWikipediaなどの記法を標準化しようというWiki Creole 1.0を拡張したものである。CAS記法は、XMLの要素の属性を任意に記述でき、さらに一階層上の属性も指定できるのが特徴である。

いま、もっとも人気のある簡易マークアップ記法は「マークダウン」である。マークダウンを応用したEPUB変換の仕組みとして「でんでんコンバーター」は人気があるようだ(ebookpedia「でんでんコンバーター」を参照)。だがマークダウンは属性の記述ができない。タグの入れ子(あるタグの内部で別のタグを使う)をあまり考慮していないし、HTMLのブロック要素を直接記述するのが難しい。マークダウンで専門書の原稿にマークアップするのは無理だろう。CAS記法は専門書のマークアップにも使える。

縦書きと横書き

日本語は縦組と横組ができる。ワンソースで縦組も横組もできるようにするには、書記方法を変更する必要がある。江戸時代までの日本語は縦書きのみであり、伝統的な書記方法では漢数字を使う。最近は縦書きでもアラビア数字を用いる書記方法が増えている。日本の主要新聞は、2000年代までに年号などの表記を漢数字からアラビア数字に変更した。新聞は、紙は縦書き、Webは横書きであり、アラビア数字で表記するほうがマルチユースしやすい。

ラテンアルファベットの書記方法も工夫が必要である。一般的には頭字語はアルファベットを正立させ、英単語では横倒しである。しかし、細かく見ると統一されていない。典型的な例としてVS.(versus)がある。縦中横、各文字正立、横倒し表記を見かける。また、(1)のようなカッコつきの数字も書記方法がばらばらである。横書きで原稿を書き、縦書きで出版するにはあらかじめよく考えた書記方法で書かないと、ある文字は正立・別の文字は横倒し、というちぐはぐなことになる。

2013年8月にUnicodeで文字を縦書きしたときのデフォルト方向を規定する、UTR#50というレポートが出た(Unicodeについてはebookpediaの「Unicode」も参照)。UTR#50はデフォルト方向を文字ごとに決めている。文字ごとに方向が違うと、横書きで書いているとき、縦書きで正立するか、横倒しになるかの予想が難しい。

個人的には、括弧や句読点のような一部の例外を除き、すべての文字をデフォルトで正立とし、例外はプログラムで字形を入れ替ると効率がよいと考える。こういう考えは少数派のようである。ただし、主要な新聞の書記方法はこの方式である。

紙の本を作る

ソース文書から本のためのPDFを作る仕組みは自由である。XML文書をInDesignなどに読み込んでPDFを制作してもよい。しかし、せっかくXMLにしたのなら、PDFを自動的に作ってXMLのメリットをフルに生かしたい。

本のPDFを自動的に作るには、本の制作のためにどのような設定項目があるかを分析して、本を工学的にモデル化する必要がある。JIS X4051日本語文書の組版方法やW3C「日本語組版処理の要件」など文字組版についての規格や解説は多い。行間の取り方や頁単位の組み方の解説書もある。ところが、本のかたちについての解説書はあまり見かけない(仕方がないので、市販の本を調べてデータを整理している。どなたか、詳しい方に、ご教授いただけるとありがたい)。

1)基本版面

頁で文字を印刷する領域の大きさは判型で制約される。各頁に文字をどのように配置するかは基本版面で設定する。設定項目は、

・文字サイズ
・字詰め(一行の文字数)
・行数
・行間

である。設定項目の種類が少ないが、現在の組版はアウトラインフォントで文字の大きさを無段階で変更できるので基本版面は無数になる。基本版面の設定値で読みやすさが変わる。

kumihan

文字を小さくして一行の文字数(字詰め)を増やすと、次の行の先頭を見つけやすくするため行間を広くする必要がある。一方、行数を増やすと行間が狭くなる。行間が文字サイズの半分を下回ると読みにくく、ルビの配置にも支障がでる。

こうして自然と字詰め・行数に制限ができる。縦組四六判では1頁900文字程度が上限になりそうだ。市販されている本で、1頁あたりの文字数が900字を超えているものをときどき見かけるが読みにくい。CAS-UBでは基本版面の推奨設定値の組版サンプルを用意した。JIS X4051や本づくりの教科書に載っている設定値の組とは違うものとなった。既存の設定値はたいてい1ポイント刻みである。しかし、いまは1ポイント刻みの設定はあまり使わないだろう。

2)本の構造

本には前付、本文、後付という大きな区分があり、前付には本扉、献辞、前書、目次などがある。本文は半扉(書名の扉)から始まることもある。本文には章・節・項という階層がある。後付には謝辞、参考文献、索引、奧付などが入る。編集者や制作者はこうした本の構造を意識しているはずだが、著者はあまり意識していないようだ。CAS-UBでは記事の種類という考え方を導入したが、理解してもらうのが難しい。

章・節・項と大見出し、中見出し、小見出しの対応関係はあまり明確でない。原稿の編集過程において章・節・項の順序を柔軟に入れ替えるためには、章・節・項番号はソース文書には持たせずに、成果物を出力する直前に自動的に付けると便利である。章番号・節・項番号を一定の規則で自動的につけるためには、見出しの階層構造を明確に意識してソース文書にマークアップしておく。しかし、著者や編集者はそういう発想を持っていないようで、原稿に自分で番号を付けてしまう傾向がある。

3)扉の位置

紙の本には扉が多い。扉は改丁を伴い、本の構成上大きな区切りになる。日本語の本では扉の種類と位置が多様である。多くの場合、カバーを捲ると化粧扉または本文と同じ用紙(ともがみ)の本扉がある。

縦組の本では約半数に目次の扉がある。目次の前に扉を置くと、扉で改丁し、次の偶数頁から目次を見開きに配置できるからである。また本文の始まる前に半扉(書名のみの扉)がある本も多い。章の扉を置くこともある。章扉は扉の裏を白紙にしたり、本文を始めたりする。見開き・改丁・裏表などは紙の本のみの特性である。扉・改丁・白紙頁などの指定はソース文書から独立にするべきである。

4)記事の種類によるスタイル

一冊の本の中で、記事の種類によりスタイルが変わることが多い。参考文献は文字を小さくすることが多いし、索引は二段組にすることが多い。縦組の本は横組に比べて記事のスタイルが複雑になる。縦組の翻訳本で、著作権表記の頁は横組である。さらに本文が縦組でも、後注、参考文献、索引は横組にする傾向がある。ソース文書に組み方法の設定を持たせないのが望ましい。

本文では縦組の本と横組の本で注の配置方法が異なる。横組の本では脚注として頁単位で頁の下に配置するが、縦組の本では傍注として見開き単位で左頁の左端に置く。注の位置は、ソース文書と独立にして、PDF出力時に決定しなければならない。

5)記事別スタイル – 参考文献

専門書で特筆すべきは参考文献である。欧米では参考文献の書き方についてのテキストブックが大量にある。たとえば、大学生向けの研究レポートの書き方“MLA Handbook”(現在は第7版。今年4月に第8版が刊行予定)は、本文の半分以上が本の引用の仕方と参考文献の書き方である。

学術論文は、参考文献を管理するツールを使って文献リストを作るが、ジャーナルごとの参考文献のスタイルを定義するCSL(Citation Style Language)があり1,000種類を超えるスタイルが定義されている。日本ではSIST(科学技術情報流通技術基準)に参考文献の書き方やスタイルの仕様がある。他には、学生向けの論文の書き方テキストの中で簡単に説明されている程度である。

参考文献リストをXML形式で作成したとき、それを参考文献の印刷レイアウトに変換しなければならない。それには参考文献スタイルを規定して、XML形式から変換する必要がある。CAS-UBではTeXのbib形式から参考文献を作る仕組みを用意したが、スタイルはまだ一種類しかできない。それ以前に、今後はbib形式を使う人が少なくなりそうだ。多様な参考文献スタイルに対応する方法は今後の課題である。

6)記事別スタイル – 索引

索引はソース文書では本文のテキスト中にXMLでマークアップしておき、マルチ出力に合わせて自動的に作りだす。索引頁のレイアウトは本文とは異なることは既に説明したが、それ以外にもいろいろな設定項目がある。索引語のソートの方法や見出しはソース文書とは別に指定しておかなければならない。CAS-UBではいまのところこれらは固定である。

索引の作り方には、すべての索引語を一つにまとめる方法や、人名索引・地名索引・事項索引のように分ける方法などがある。いずれの方法をとるにせよ、索引語の種類を本文テキストにマークアップする必要がある。これはCAS記法では未定義である。索引語を親子で階層化するために索引の親子関係をマークアップすることはできる。

7)見出しと本文

大見出しの前では改丁または改頁する。小見出しでは改頁はしないまでも、見出しと直後の本文段落の間で改頁してはいけない。これを自動的に処理するには、見出しを階層化したマークアップで区別しなければならない。

8)図版・表の配置最適化

ソース文書に図版や表を含むとき、これを基本版面に自動最適配置するのは難問である。テキストは文字進行方向と行進行方向にある程度の余裕があれば流し込める。しかし、図版は一定の領域を占有し、かつ頁を跨ぐことができない。ある段落のテキストで参照している図版が段落内の参照元と同一頁に入らないことがある。そのとき、何も対策せずに図版を次の頁に送ると、頁に空きができる。

図版がそれを参照している段落の次の頁に送られそうなとき、テキストの一部を次の頁に送って図版を段落と同一頁に配置するか、逆に後のテキストを図版の前にもってきて空きができないようにする。しかし、図が見出しを飛び越してはならない。CAS-UBではこうした処理は自動的にできる。

また、CAS-UBでは図版のページ内での位置や本全体にわたる簡単な配置パターンを指定することもできる。さらに図版の配置パターンのバリエーションを増やし、自動的に適切に配置できるようにしたい。ただし、この配置指定をソース文書に記述してはならない。PDF作成時に自動的に最適化するべきである。これは難問である。

表は表中で改頁を許すときと許さないときがある。表の中で改頁できないときは図版と同じ扱いとなる。また、図版や表には図表の見出しと説明文が入る。図表の見出しと説明文が別頁に分かれてしまわないようにする。図の見出しと説明文の配置方針は本ごとに決める必要がある。たとえば縦組では図の幅以内に納めることが多い。こうした設定もソース文書に設定してはならない。

9)図版の大きさ指定と配置の自動化

図版を最適配置したPDFを作るには、図版の大きさの決定がポイントである。個々の図版に対して、手作業で図版の大きさをマークアップしている。図版の扱いは紙と電子で変わるので図版の大きさはソース文書に直接記述しないようにしたい。図版の大きさを微調整して、テキストと図版の位置や改頁位置を最適化するのは手作業である。図版のサイズを、手作業でなく自動的に微調整して最適化できるようにしたい。

10)ノンブル

ノンブルのカウントは本扉(ともがみのとき)または化粧扉の次の頁から開始する。縦組の日本語の本は、前付と本文を通しでノンブルをカウントするものが主流である。横組の本、やや昔の本は前付をローマ数字で表し、本文開始位置でノンブルのカウントをリセットしてアラビア数字で表すものが多い。こうしたノンブル表記法は、印刷・制作工程の変化とも関係する。

縦組の本で、巻末に横組の頁並びがくるときは、頁順を逆に並び替えてから一つのPDFにする。このとき、ノンブルを右から左に振る場合と、左から右に振る場合がある。ノンブルを振ってから並び替えるか、並び替えてからノンブルを振るかの相違である。

扉や空白ページにはノンブルを付けない。目次にはノンブルを付ける本と付けない本がある。ノンブルのカウント方法、ノンブルを振るページと振らない頁の扱いはソース文書に記述してはならない。

電子の本を作る

ソース文書をXMLで作成すれば、ソース文書からEPUB形式を作るのは簡単であり、サイマル出版はワンクリックでできる(はずだ)。ところが、EPUBリーダーの機能が低すぎるため、レイアウトに次のような問題が出がちである。

・見出しと本文の間の改頁禁止が有効にならない
・図の見出しと図版の間での改頁禁止が有効にならない
・表の組版機能が低いリーダーがある

こうした問題を避けるために、図の見出しと図版をセットで、表の見出しと表をセットで画像にする。文字を含まない写真やイラストのような画像の拡大縮小は比較的自由である。しかし、文字を含む図版や表の画像の場合は、本文の文字サイズと画像の文字サイズは本を通じて一定の割合(たとえば、本文文字サイズ1に対して、画像内の文字0.8など)にならないと見栄えが悪い。

EPUBのように画面で見るときは、このバランスが崩れても許容されるが、紙に印刷すると許容されなくなる。PDFを作るときは図の見出しや説明文を画像にすることも許容されない。ワンソースマルチユースではこのあたりも工夫が必要である。

EPUBに頁の概念が必要なのだろうか?

昔の日本には紙の巻物があった。現在、紙本を作るには頁の概念が必須である。PDFレイアウトの説明で述べたとおり、頁に区切る処理は紙の本をレイアウトする上での難問である。紙の難点をわざわざ電子画面上にまで継承することにどのような意味があるのだろうか?

小説のように文字だけの本ならば、テキストを頁単位で区切るのは簡単であり、また支障はない。図版や表があるときが問題である。段落から参照している図版は通常は段落の直後に置く。そのとき図版が頁を跨いでしまうとき、EPUBリーダーは頁を跨ぐ図版を次の頁に送る。するとそこに大きな空きができる。

さらに、参照元段落の説明を図版で理解するために、EPUBリーダーで頁を捲る・戻る動作が必要となる。紙でも同じことが起きるが、紙の頁は見開きになるため段落と図版が別の平面になる可能性は半減される。紙は画面と違って頁を捲り・戻るという動作がやりやすい。EPUBリーダーで画面を進んだり戻ったりすると、内容理解の際に短期記憶への負担が大きくなる。このように考えるとEPUBは巻物方式のほうが向いていそうだ。EPUBリーダーが画面を紙の頁に見立てる意味は大きくないのではないか?

まとめ

現時点では、比較的シンプルな頁レイアウトであれば、DTPに劣らない本をCAS-UBで作れる。また、同時に、電子本をワンクリックの操作で作れる。こうして、本のワンソースマルチユースを実証した。しかし、高度に洗練された美しい頁、あるいは、複雑な構成をもつ本の制作には今後の挑戦が必要である。

紙の雑誌の凋落が叫ばれている。30数年前に、伸び盛りの専門雑誌出版社で働いていた頃には、このようになることは想像もできなかった。しかし、学術ジャーナルは既に電子化が進んでおり、紙のほうが珍しいまでになっている。

電子化の第一段階は紙の延長であるPDFの配布である。欧米ではさらに進んでオンラインファースト(Web形式)による発行に移行しつつある。学術ジャーナルは利便性・経済合理性から電子版が有利なので一般誌より変化が速い。『学術書を書く』(鈴木哲也・高瀬桃子著、京都大学学術出版会)によると、

①研究成果を出版したいという要望は増えているが、
②専門的な本の紙による出版は危機に陥っており、
③米国ではPODの普及がそれに拍車をかけている

という。専門書は電子版の利便性が高く、経済合理性からも電子版が優位なはずである。デジタルファースト(電子書籍形式)やオンラインファースト(Web形式)による出版への転換が望まれる。

そうなっても、画面と紙はまったく別の媒体であり、紙の本への需要がなくなることは決してない。『PDFインフラストラクチャ解説』を作ってみた経験からも断言できる。オンラインファーストの時代になっても紙の本が残るためには、ワンソースマルチユースで本を作る技術の確立が必須である。

執筆者紹介

小林徳滋
1950年生まれ。京都大学・理学部卒業。出版社勤務を経て、1984年8月アンテナハウス株式会社を設立。現在、同社社長。30年以上にわたり、コンピュータソフト製品の企画・開発・販売を担当。XMLによる文書の構造化処理に関心を持っている。2014年1月~現在DITA コンソーシアムジャパン理事長。2016年度より日本電子出版協会理事。2005年10月17日から2008年7月12日まで1000日間連続で「PDF千夜一夜」ブログを書く。第23回盛和塾世界大会において、第20回稲盛経営者賞(非製造業第3グループ第2位)。