六、新型内容制作系统
1.系统功能描述
新型内容制作系统旨在协助出版社解决现存的重复排版、流程割裂等问题。该系统有助于出版社统一“选题、组稿、审稿、加工整理、整体设计、发稿、校对、印刷”等环节的数据格式,并在此基础上提供符合书刊版式特点、精准易用的排版功能。
为满足跨媒体出版对书刊“一次制作、多元发布”的要求,除了内容和呈现信息外,一体化编排系统的文件格式将集成元数据信息、结构化信息以及标引信息等,构造新型的复合文档,为编审校流程的电子化以及数字内容的标引和再利用提供单一数据源。
新型内容制作系统的子系统除了继承现有专业排版软件的功能外,将具备全面的数据兼容能力,以所见即所得的操作方式支持高质高效的内容制作加工;提供目录索引自动建立、随文脚注提注、强大图文关系处理等适合书刊排版的特有功能;全面支持科技类出版物、多语种出版物的排版;排版效果体现中文特殊要求并xx符合国家标准。
跨媒体出版的核心思想是“一次制作、多元发布”,发布是结果,制作是基础。新型内容制作系统将各种内容信息进行有序的组织,提供数字内容加工的最基础工具。
2.细化的研究内容
(1)新型复合文档结构
为保证在数字出版过程中,数据在各个环节的传递以及便于复用,拟采用新型的复合文档结构。
新型复合文档结构的关键在于将版面内容和样式xx分离,同时引入标引信息以及元数据信息。版面内容与样式的分离,有利于将样式作为一种独立的资源,为今后的自动化排版以及多渠道发布做好准备;标引信息的记录,意在为建立起有序的知识网络结构打好基础;元数据信息的引入,意在为整个数字出版产业链的下游环节,如数字图书馆等直接提供所需元数据信息,以避免数据割裂,重复工作。
(2)对Office文档格式的兼容
在出版社中,相当一部分原始稿件为Word格式文档。由于排版软件无法兼容Word文档,排版人员不得不重新录入内容,导致重复劳动,特别对于一些科技类内容,排版人员缺乏相应的专业知识,再次排版出错率增大。此外,一些原始稿件,如论文等,里面很多数据分析的内容以Excel文档形式提供,同样存在无法直接在排版软件中使用的问题。
针对上述情况,需要研究全面兼容Word/Excel文档技术。要求排版软件可以直接接收Word/Excel文档,同时保证内容、属性、版式不变。这样可以减少很大一部分重新输入内容、重新排版的工作量。
(3)科技排版技术
如何更好地进行科技类出版物排版、网上传播一直是困扰出版从业人员的一大难题。科技类出版物的排版相对其他出版物要复杂和困难得多。这种复杂性主要表现在:{dy},科技类文章往往通过大量复杂的数学、化学、物理公式来推导定理的证明,辅以插图形象的说明问题及其应用。公式中要大量地使用各种由键盘无法直接输入的特殊字符,标题、摘要、关键词、参考文献、图表编号以及章节编排等在编辑排版中均采用特定的格式。第二,由于公式通常具有嵌套结构,因此使得这些特殊符号的大小和形状在不断变化。第三,公式的排版比一般单纯文字处理的排版要复杂得多,要考虑上下标问题、对齐问题、公式基线问题等。第四,现有的排版软件,无法很好的做到将科技类文章的排版结果,原版原式的转换为可在网上浏览形式,公式中的符号发生错位等是常见问题。
国家所制定的排版标准中对科技类符号、公式、图形和数据等都有一整套严格的准则和规定,从而使科技类文章的排版工作有其明显的特殊性。
科技排版技术将提供强大的科技排版功能。配备符合国家标准、丰富的字符集以及图形库;提供所见即所得、交互式录入数理化公式的能力;采用统一的格式进行有关字体和公式的设置,且方便后继的修改工作;灵活的自动编号功能,可以对文章中出现的公式、参考文献、图表等自动编号,以方便文中对这些编号的引用;提供从用于印刷的版面文件到可用于网络传输的文件格式的流畅转换。
(4)图文跟随关系处理技术
在图书排版过程中,由于版面尺寸等的调整或者内容的增减,导致原来已经设定好的有关联关系的图文位置发生变化,往往会让排版人员使用更多的时间重新调整版面效果。产生这个问题的根本原因在于,原有排版软件无法让用户建立对象和文字之间的锁定关系。
图文跟随关系的处理,重点是要向用户提供如下功能:
锚点的处理。在版面上,对“某一位置”的文字起到解释、进一步说明或者修饰作用的对象(含图片、图形、公式等),它与文字之间的相对位置应该是固定不变的。因此需要定义某一文字位置为锚点。
锚点对象和文本之间存在多种位置关系,如行内、行上、行下、栏顶、栏底、栏外、框外、段内、页内等。当对象和锚点建立起关系后,对象和锚点所在位置的文字就是锁定关系的,即对象随着锚点位置的流动而流动,保持对象和文字之间的相对位置不变。
随文对象处理。随文对象是内嵌在文字流内随文排版的各类对象。方便的选中和再编辑能力、多样的互斥功能(含异型轮廓互斥、多种对齐方式),是随文对象处理的技术要点。
(5)符合书刊排版特点的主文字流支持
随着书刊甚至报纸的内容增多,需要对长文档进行特殊处理。对于大多数以文字内容为主的长文档,需要引入主文字流的概念。主文字流是自动贯穿于整篇文档的文字流,是书籍的最重要组成内容。引入主文字流概念是提高长文档排版效率的重要途径之一。
支持长文档中的主文字流,重点需要实现如下功能:
以版心为默认大小铺设主文字流,同时支持多个文字流;
主文字流大小随版心大小自动调整;
长文档随主文字流自动加页,排出未排完内容,而不出现续排;
方便对主文字流进行分栏,同时支持流内分栏。
(6)符合书刊特点的版面元素支持
一般书刊排版都要包括目录、摘要、正文、章、节、页眉、页脚、脚注、尾注、页码等基本元素。作为交互式内容制作系统,须提供以下功能:
灵活的页眉页脚支持。用户可以自定义页眉页脚,同时可以做到不同章节、奇偶页的页眉页脚不同。
丰富多样的页码支持。包括提供多种页码类型,页码自动包含章节编号信息,支持各类页码模板的创建等。
随文脚注支持。题注功能;项目符号和编号功能;自动生成目录功能;索引点定义以及自动提取、排序能力。
(7)多语种排版技术
世界上的语言文字多彩多姿,文档呈现形式迥异,仅以书写方向而论就分为四种类型:水平从左向右,大多数文字都采用这种书写方式,如拉丁文字、现代汉语、泰文、藏文等;水平从右向左,如阿拉伯文、希伯来文、维吾尔文等;垂直从右到左,如传统汉语、日文等;垂直从左向右,如传统蒙古文就是这种书写方式的文字。
针对多语言混合排版的需求,多语种排版技术重点解决以下问题:
排版核心支持Unicode编码体系;
支持多国外文、少数民族文的录入;
支持多国外文字体、少数民族文字体的选择;
多国外文、少数民族文排版规范的逐步支持。
(8)支持中文排版标准
国家对出版物的质量有着严格的管理,曾先后制定和发布了一系列与新闻出版编辑工作有关的法律、法规、标准和规范,成为保证图书编校和印制质量的关键。
在提高图书编校质量和印制质量等方面,排版软件提供给用户符合国家标准、规范的编排能力,是非常关键的一个环节。排版软件提供的标准排版技术,主要体现在以下几个方面:
符号、数字、拼音、文字排版规范;
各类“量”和“单位”排版规范;
图书、期刊、论文、辞书的编排规范;
多语种的编排规范。
(9)痕迹保留以及版本管理
在出版社的三审三校过程中,会对版面文件进行反复的修改。修改的过程和内容能够得到记录和重现。同时,对每一个修改的版本需要进行有序的管理,编辑或相关人员可以方便地找到任何一个环节的版本。每一个版本的修改时间、修改人员、修改内容都需要进行记录,同时可以对不同版本的版面文件进行对比,列出异同点。这将有利于提高出版社的管理水平,提高出版社整体的生产质量。
(10)可视化XML编辑器
在文稿编撰或者内容标引的时候,往往重点关注的是内容,而希望排除相对复杂的排版格式的干扰,此时,基于结构化的XML文本化编辑模式就凸现出了它的优势,可视化的XML编辑器在保留排版格式的前提下,提供文本化的内容编辑环境,供使用者方便地完成对内容的加工,进一步提供格式化的预览对于使用者及时掌握作品的编排结果也是非常必要的。
编辑器不仅要处理文字内容,同时还需要能够对数学公式、化学符号、图片、表格、多媒体等各种内容进行处理。数学公式、化学符号、图片、多媒体等内容是编辑器处理的难点。
(11)长文档排版效率和稳定性的提升
随着文档的增长,效率问题逐渐凸现,如果得不到很好的处理,用户在撰写或编辑长文档时,常常会感到响应迟缓,有时甚至还会导致死机或内容丢失。提升长文档下的排版效率是新型内容制作软件需要重点研究的内容之一,它涉及到:长文档下的复杂区域排版处理、图像显示速度的提升、连续页表格处理速度提升等多方面的研究。
(12)排版软件对多媒体信息的支持
随着创意产业的发展以及数字出版背景下对跨媒体出版的需要,人们对数字内容的丰富程度、表现形式、美观程度越来越关注,如希望版面中加入声音、视频、动画等素材,以网页、手机页面、FLASH等形式展现在多种媒体上。因此,需要排版软件在更标准和xxx的基础上,增加对多媒体信息的全面支持,使得排版软件充分展现新颖的创意效果,以满足传统印刷、数字印刷、网络、光盘、移动终端等不同发布渠道的需要以及读者多种阅读体验的需要。
(13)复杂表格、图表的支持
图表作为文字、图片以外的一种表现内容、传播资讯的形式,已经越来越多地出现在报纸、杂志、网络、电视等各种媒体中。它可以将文字和数据转化为更易理解和表现的图形和多媒体形式,明亮的色彩、简单的图示、清晰的数字、简明的文字增进受众体验,传达全面资讯,塑造立体形象,让阅读者对新闻、资讯有更加快速、直观的理解。
图表的展现形式多种多样,最基本的图表类型包括:表格、圆形、柱形和各类线形,在此基础上,还要提供更加丰富的图形库以及设计能力以增强图表的展现力。除此之外,表格的运算能力、自动绘制图表能力也是需要研究的内容。
(14)创意效果的增强
近几年,图书、报刊的版式设计出现了整体性的飞跃变化。以往那些在画册类、专业类书籍上才运用的考究的版式设计手法,越来越多地普及到一般图书,从畅销读物到教材、教辅乃至学术著作,都呈现出别具一格的版面样式。版面布局、文字排列、装饰表现手法多元而丰富,不同类别的图书有迥然不同的风格。版式设计中的视觉因素被强化,视觉语言的运用越来越普遍,对细节的美化更加注重。因此,需要排版软件提供更加强大、易用的创意功能。
另一方面,在所谓的“眼球经济时代”,人们对出版物在视觉上的精美度要求也越来越高了。因此,需要更多考虑制作系统在图像{tx},包括透明、阴影、羽化、蒙皮、路径裁减、颜色通道、图片增强;矢量图形制作,包括字体矢量化、矢量编辑;以及颜色渐变等功能上的丰富。
(15)对专业英文排版的支持
随着中国改革开放程度的不断提高以及与国际间交流日益增多,大众对英文读物的需求量逐年递增。英文不仅仅出现在教科书上,全英文的文学读物逐渐受到人们的青睐,各类报刊、杂志中的英文内容也随处可见,人们对英文读物的质量要求和审美要求越来越高。这对传统的中文排版软件在英文处理方面的能力、英文版面的美观效果方面有了更高的要求。主要体现在:
英文的排版效果富有美感,字母间距、单词间距、行间距合理,各种标点符号显示正确,标准;
对英文特殊排版规则的支持,如空格类型、字偶距、英文特殊符号等;
英文单词拆音节的智能化高效处理;
提供美观、多种类的英文字体。
(16)对汉语拼音的排版支持
汉语拼音系统地体现了我们的母语—汉语的发音规则,对普及识字以及初等教育起了很大的作用。同时它也为语源学汉语与其他语言的比较提供了一个非常重要的工具,同过去其他的汉语拉丁化的规则相比,它的规律比较明确,发音更规范于普通话的发音。因此在各类普及教育阶段的读物中,专业的语言类研究著作中,对外汉语教学类书籍中,拼音的出现频率是非常高的。
排版软件对拼音的支持应满足中华人民共和国国家标准中对汉语拼音正词法基本规则,包括:
分词连写法;
成语拼写法;
外来词拼写法;
人名地名拼写法;
标调法;
移行规则。
除了对上述规则的支持,排版软件还要在易用性方面,如对词组自动加拼音,提高多音字一次自动标注成功率等,以及拼音呈现美观性方面不断改进。
七、历史数据加工与整理系统
1. 系统功能描述
根据出版社实际情况,历史数据的排版文件主要有书版FBD文件、Word文件、Indesign等格式的资源,这些资源中,最核心的是书版文件。历史数据加工与整理系统可以实现Indesign文件转换为PDF文件、也可转换为PS文件,Word文件可以转换为PDF文件。
书版FBD文件也即小样文件,通过设定提取模版,也可以将其转换为XML文件,另外,书版FBD文件可以通过先转换为印刷所用的PS文件,然后再将PS转换为PDF文件。有了PDF文件和XML后,可以非常方便地从PDF和XML文件中抽取内容文本,以便在将来使用。常用排版文件和印刷相关文件的关系如下图所示。
图-5:常用排版文件与印刷相关文件的关系
根据上述各文件转换关系,对于现有的书刊资源,可以将它们分别进行处理。一些难以处理的文件格式,比如Indesign,兼顾印刷的需要,可以将它们转换为PDF文件,考虑到印刷和常用的浏览的应用的特点,转换PDF时转换两套,高精度的PDF是便于将来印刷的需要,低精度的PDF是为了便于常用的浏览所需。对于书版文件,则走两条路线。在将来需要进行再次排版或修改内容的书籍内容,通过配置模版的方法,将其转换为XML文件,那些将来不需要对内容进行改动,也不需要再次对版式做大量修改的书籍,可以将其转换为PDF文件。Word文件也可进行类似处理。此外,不仅可以对这些文件进行格式转换,也需要将它们进行整体存储,以便保留其原始文件。
除此以外,历史数据的加工与整理也包括非数字化历史资料的数字化工作,比如纸质出版物等。这些历史资料因为介质、时代或自然等因素造成了损失、流失,而无法再生。将这些历史资料数字化为延续和传承中华文明提供了一个新途径。
历史资料数字化流程包括扫描、OCR识别、校对勘误、XML标引、入库等环节。数字化最难的是“版式还原”,以数字化形式还原历史资料的版式。“版式还原”数字化有两种形式,一种是尽可能保持原版面貌,不仅款式相同,文字的字形也相同。另一种是版式的款式与原版相同,但文字可以用标准字体,如宋体、楷体等。其中的文字可以进行检索、查询。目前很多历史资料的电子版都是仅仅将文字内容数字化,没有考虑维持与原有未数字化历史资料相同的版式,导致对内容有疑问仍然需要参照查阅原有未数字化历史资料,这给学习和研究带来了很大障碍。
2.细化的研究内容
(1)小样文件转XML文件
小样转XML工具就是用来完成书版小样文件转换到标准开放的XML文件格式的工具。由于书版软件是面向排版专业人员使用的软件,它用方正排版BD语言来控制文本以及图片的格式、位置等,同样公式、表格、特殊符号等对象也是用BD语言来描述的,而BD语言本身不需要严谨的语法结构,这使得利用小样文件分离出结构性的数据难度很大。
(2)PS文件转换到PDF
PS文件及图转PDF的功能完成将方正PS文件转换到标准的PDF文件,转换的结果将保留原图书的原版原式。
(3)PDF文件拆分及合并
在每本书的PDF文件生成以后,可以使用PDF的拆分和合并功能来对一本图书的PDF文件作进一步的处理。合并功能是将一本图书的各个部分的PDF文件(前言、简介、各章等)合并成一个PDF文件。同时,可以将PDF文件拆分成章,这里的章是广义的概念,可以是前言、简介、各章等。
(4) OCR识别系统
OCR识别将可以识别简体、繁体、简繁体混合以及英文书籍扫描而成的图像,可识别的图像格式将支持诸如Jpg、Tiff、Bmp等,整个OCR识别系统将要重点研究版面分析、OCR识别、输出复合文档格式等功能。版面分析包括图像去污、自动/手动倾斜旋转校正图像、分析版面图像中的文字和图片,表格元素等,对文字需要去区分是横排还是竖排,并自动切分版面,将版面内容切分成不同的小区域。允许用户编辑、修改所选择的区域范围。OCR识别将研究对每个切分的小区域进行图像文字转为编码文字的功能。并建立图像文字在图像中的位置与编码文字的对应关系,以方便后续的校对工作。
(5)校对勘误系统
校对勘误系统,将对OCR识别出来的文字与识别前的图像进行关联校对。并辅以联机字典,供用户快速选择正确的文字。校对的方式整体上分为纵校和横校两道工序,纵校是采用倒查的方式,通过识别出来的字符反查原文,比如通过“我”这个字,查找在文档中所有被识别为“我”的图形。横校类似于传统校对的折校,分为页(原稿图像)对页(数字化),列队列、行对行、字对字的校对等。重点是校公式和上下标这样的字符。上下标及公式将采用标记命令来标示。
(6)检索浏览系统
对标引入库的复合文档进行检索、统计、对比、分析功能。并提供浏览,检索包括关联检索、组合检索等。包括地名关联、人名关联、相关信息关联等。统计包括字频和用字量统计,能自动根据题材,作者,来源,体裁等分类统计;对比包括版本对比、作者对比、数量对比。类型对比。分析功能将包括自动理解语言,自动写摘要,字组聚类分析、语料分析等。