統一中間フォーマットの要件

2010年12月17日
posted by 齋鹿尚史

統一フォーマットの技術的意義

統一中間(交換)フォーマット(以下、統一フォーマット)を策定することになった経緯については、別稿に詳しく述べられているのでここでは繰り返さないが、その技術的な意義について述べる。

国内のテキスト系コンテンツフォーマットとして、現状ではボイジャーのドットブック(.book)、シャープのXMDFが双璧となっている。ドットブックはHTMLを拡張した仕様となっており、一方XMDF(記述フォーマット)はXML形式で定義されている。それぞれのタグ記述例を図1 に示す。いずれも、「横書き、本文のフォントはOsaka、MSゴシックの順に優先して使用」「“はじめに” という文字列を中央揃えで表示」という記述を行う例である。

タグの例。左がXMDF,右がドットブック

タグの例。左がXMDF,右がドットブック

いずれのフォーマットもタグ形式で定義されている点では同じであるが、両者のタグや属性は、機能が一致しているものでも、図1でわかるように、名称は必ずしも一致していない。したがって、2つのフォーマットでコンテンツを作成するには、何らかの方法で、それぞれの仕様に基づいて個別にタグ付けを行う必要がある ※1。統一フォーマットの最大の意義は、このような、フォーマットが分かれているために生じている電子出版制作上の、非効率性を除去することである。

ドットブック、XMDFは、それぞれの開発の経緯や各社の意図によって、機能についても一致しない部分がある。このような機能面での相違の扱いについては後に述べる。

なお、統一フォーマットの仕様は公開が前提となっており、誰もが使用することができるものであることを改めて強調しておきたい。また、統一フォーマットから、閲覧フォーマットや流通フォーマットに変換することは、各社のビジネス領域であり、今回の標準化(統一フォーマット)で規定する範囲には含まれない(図2)。

図2 流通フォーマットへの変換

図2 流通フォーマットへの変換

中間フォーマットを変換する出力先は、特定の流通フォーマットに限られるものではない。コンテンツの権利者の許諾が得られ、変換ツールが整備されているのであれば、中間フォーマットから、いかなるフォーマットに変換して配信することも可能である。このような点については、中間フォーマットの標準化では取り扱わず、各社がビジネスとして取り組むことになる。図2で、「各社のビジネス領域」と書かれているのはこのような意味である。

※1:一方から他方に機械的に変換するソフトウエアも存在するが、完全なものではない。

統一フォーマットの技術的内容

統一フォーマットの仕様については現在未定の部分が多く、方針も含めて、現時点ではあくまで案の段階であることをお断りしておく。

XMLフォーマット
統一フォーマットは、別稿で説明されているような、XMLフォーマットとして策定する予定である。XMLを扱うツールの充実などから考えて、統一フォーマットをXMLで定義するのは技術的に自然なことと考えられる。また、今回の統一フォーマットは国際標準化を視野に入れており、この面からもXML形式で定義することには異論は少ない。

既存フォーマットとの関係
統一フォーマットは、その策定の目的から、ドットブックおよびXMDFの機能を包含したものとする必要がある※2 (図3)。なお、図中の「ミニマムセット」については後に述べる。

図3 フォーマット間の関係

図3 フォーマット間の関係

※2:特殊な端末や用途に特化した仕様についてはかならずしもこの限りではない。またそれ以外の機能については今後検討の必要がある。

機能の包含の仕方については、

  • 1) 共通または類似した機能は、同一のタグや属性にまとめる。
  • 2) 双方のタグをできるだけそのまま使えるようにする。

という、異なる方針が考えられる。後者の方針は、各フォーマットとの互換性は高いという利点がある反面、統一フォーマット自体の仕様は煩雑になりがちであり、前者の特質はその裏返しとなる。このあたりも今後の検討によって決定することになる。

スタイル記述の分離
統一フォーマットは、個々の端末に縛られるようなものであってはならず、そこから作成されたコンテンツが長期の利用に耐えるものでなくてはならない。すなわち、今後の端末の発展に、交換フォーマットとして利用し続けることができるものである必要がある。

これを保証するためには、

  • ◇端末の仕様(解像度など)に依存した、「見え方」に関する部分(スタイル)
  • ◇端末によって変わらない部分(内容)を分離するのが良いと考えられる。これにより今後、現在予想されていないような画面を持った端末に遭遇したとしても、最悪でもスタイル記述のみ変更するだけでコンテンツを利用し続けることができる。すなわち、現在の端末仕様に縛られず、長期にコンテンツを利用できることになる(図4)。
図4 スタイル記述の分離

図4 スタイル記述の分離

スタイル記述と内容を分離する考え方は、たとえばWebでも導入されてきている。Webでは、よく知られているように、HTMLでコンテンツが記述されるが、スタイル記述は、スタイルシートと呼ばれる、別のファイルに記述することが可能になっている。

HTMLの各タグに対して、どのように表示すべきかを指定するのが、Webにおけるスタイルシートの基本的な考え方である。図5に内容とスタイル記述が混在しているHTMLの例と、スタイル記述をスタイルシートに分離した例を示す。

図5 スタイルシートの概念

図5 スタイルシートの概念

図5 左側の例では、ボールド体であることを示す<b>タグ、センタリング(中央寄せ)を行うことを示す<center>タグは、内容(「スタイルシートとは」という文字列)がレベル1の見出しであることを示す<h1>タグと同様に同一のファイルの中に記述されている。すなわち、スタイルの記述は内容と分離されてはいない。

これに対して、図5右側の例では、ボールド体であること、センタリングを行うスタイル記述はfont-weight、text-alignとして記述され、<h1>タグで挟まれた内容とは別のファイルに収められている。

図6 図5のスタイルシートの表示例

図6 図5のスタイルシートの表示例

ここで例に用いたスタイル記述の仕様はCSS(Cascading Style Sheet) と呼ばれており、HTMLのスタイル記述としては主流となっている。図6は図5で示した記述に対応する表示の例であり、「スタイルシートとは」という文字列がボールド体で、行の中央に表示されている。

統一フォーマットはHTMLではないが、ここで述べたスタイル記述の考え方を適用することで、各社のフォーマットの仕様も踏まえつつ、スタイル記述と内容との分離を図る。

ミニマムセット
統一フォーマットの制定にあたっては、日本語を表すのに最低限必要なタグの集まりであるミニマムセットを同時に定義することが考えられている。

統一フォーマットは、すでに日本語コンテンツで実績を持つ2つのフォーマットを機能的に包含しているため、このような日本語を表すのに最低限必要な機能は当然含まれることになる。したがってミニマムセットの機能は、図3に示した通り、統一フォーマットの機能のサブセットである。そのタグ名や属性名などの仕様については、既存フォーマットや、IEC62448との関係も踏まえて、どのような形が望ましいかを検討することになっている。

仕様策定の動き
2010 年10月に仕様案第一版を策定することを目標としている。また国際標準化も同時に進めることを想定しており、IEC62448の改訂に合わせ、仕様案をCD(委員会原案)に盛り込むことになる。国際標準化提案にあたっては、必要に応じて、多国語対応のための仕様調整や拡張が行われる。

統一フォーマットに関する流れと予定。

統一フォーマットに関する流れと予定。

現状では不確定要素も多いが、2012 年中にこの統一フォーマット仕様が盛り込まれた国際標準を発行することを目標に、国際標準化活動も並行して進める予定である。(図7)

統一フォーマットの策定にあたって、ご協力、ご指導頂いている各位に深く感謝いたします。

※本稿は「印刷雑誌」2010年9月号(Vol.93)の特集「電子書籍規格の必要性」に掲載された記事を、著者の了解を得て転載したものです。

執筆者紹介

齋鹿尚史
(シャープ株式会社)