第九章 数字出版前沿技术
{dy}节 跨媒体出版与数字内容产业
在国内,我们通常把新兴的数字媒体和出版业的数字化用“数字出版” (Digital Publishing)来概括,其实“数字出版”作为一种概念在国外并不普及,国外使用更多的概念是“数字内容管理” (Digital Content Management)或“数字内容产业” (Digital Content Industry),并没有我们这种严格地按介质形态来区分行业和划分管理权限的作法。
说到数字内容首先需从“跨媒体出版”这一概念说起,跨媒体的本质是跨越介质形态,正是因为跨越了介质形态,对出版单位这种具有内容生产特点的企业来说,就不单纯是生产某一介质的产品,而是生产“内容”,不管什么样的介质,内容都是一样的,介质只是承载内容的载体,或只是人们消费内容时的一种固化的阅读器而已。
欧盟“Info2000计划”中把内容产业的主体定义为“那些制造、开发、包装和销售信息产品及其服务的产业。”内容产业的范围包括各种媒介上所传播的印刷品内容(报纸、书籍、杂志等),音像电子出版物内容(联机数据库、音像制品、电子游戏等)、影视传播内容(电视、录像、广播和影院)等。
由于出版物不同于其他产品,出版物具有知识内容,是纯粹的内容产品,因此数字内容管理对出版单位而言,意味着对产品内容进行统一的数字化加工和生产。今后的出版,势必会突破单一媒体形式,出版单位将演变为内容提供商(Content Providers),对内容一次加工完成,以不同媒体形式出版将是一个方向。内容管理的目的是把非结构化的信息,制作成图书、报刊、光盘、网页等产品,供用户以各种媒体形式进行阅读、检索、查询、分析和共享。在这种形式下,传统的读者(Readers)或受众(Audience),将逐渐演变为内容消费者(Content Consumers)。
一、数字内容管理的概念
随着数字出版技术的迅猛发展,继ERP(企业资源计划Enterprise Resources Planning)之后,与出版行业关系更为密切、也更被出版行业所关注的是CM,即内容管理(Content Management),也叫数字内容管理。对于内容管理,目前尚无统一定义。一般认为它包括这样几个方面:网站内容管理、出版(或媒体)内容管理、企业内容管理等。同时,内容管理还广泛应用于数字资产管理(DAM)、电子政务、数字图书馆、企业信息门户(EIP)等。鉴于本书的读者对象,本书所说的内容管理是指出版物的内容管理,也可以称为狭义的“知识管理”。
如前所述,内容管理在出版业,意味着对产品内容的统一管理,它包括对图书、杂志、报纸、音像、电子产品内容的管理。随着跨媒体出版的日益临近,内容管理对出版单位变得尤为重要。今后的出版,肯定要突破单一媒体形式,出版社将演变为内容提供商(Content Providers),对内容一次加工完成,以不同媒体形式出版――纸质媒体、光介质媒体、网络媒体、移动媒体等,这是一个方向,这也就是所谓的跨媒体出版。
因此可以说,内容管理的目的是把非结构化的出版信息,制作成图书、报刊、光盘、网页等产品,供用户以各种媒体形式进行阅读、检索、查询、分析和共享。在这种形式下,传统的读者(Readers)或受众(audience),逐渐演变为内容消费者(Content Consumers) ,因此内容管理解决方案必须为出版社的知识产品提供从原创,到编辑加工,到生产制作,到传输发布,再到阅读消费等的一体化服务。
内容管理不是某种单独技术的创新,而是许多先进技术的综合应用。套用现在流行的用语,就叫“集成创新”。内容管理解决方案重点解决各种非结构化或半结构化的数字资源的采集、管理、利用、传递和增值,并能有机集成到结构化数据的商业智能(BI)环境中,如ERP、CRM等。
二、内容管理的几个关键技术
1.信息检索技术
信息检索技术包括信息的分类、标引、检索、评价、反馈等过程。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。随着互联网的发展,信息检索技术向3W的搜索引擎方向发展。目前最前沿的信息检索技术包括以下几个方面:关键词检索(全文检索)、分类导航检索、同义词(异构词)检索、聚类信息检索、截词检索、xx检索、字段检索、网站超链检索、库间跳转检索、多库同时检索、布尔检索、数字检索、二次检索(多次逼近检索)、自动分词、自然语言检索、定题检索、手机检索等。出版物内容管理面对的是出版单位的大量文稿数据,在文稿的整理入库过程中,必须使用先进的信息检索技术对文稿进行分类、标引、重组,进而建立出版物内容的知识库体系。
2.数据库技术
目前市场上流行的大型数据库产品有:DB2、Informix、SQL Server、Oracle、Sybase、MySql等。有别于小型数据库,大型数据库系统在功能、安全性和扩展性方面提供了更好的解决方案。以Oracle数据库为例,目前的Oracle数据库,在合理规划下, 数据大小理论上可以无限。所谓合理规划包括:数据文件限制与操作系统的文件大小、数据库的表容量、每个表的{zd0}数据量等的设计,具体容量是数据库设计后的计算值。正是因为有了这样成熟的数据库技术,使出版单位的海量文稿信息的异地存储、检索、导入、导出、修改成为可能。
3.数据挖掘技术
数据挖掘(data mining)是从大量的、不xx的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,出版单位积累的数据量急剧增长,如何从海量数据中提取有用知识成为当务之急。在内容管理系统中,出版单位可定制目录或位置,由数据挖掘器自动判断该位置数据内容的变化,根据判断结果自动对新数据进行入库处理。
4.数据标引技术
标引(indexing),是指通过对文献的分析,选用确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。主要指选用检索语言词或自然语言词反映文献主题内容,并以之作为检索标识的过程。Indexing一词,音译为引得法或意译为索引法,系指索引的编制技术与方法。现代外语辞典中对此词有两种解释,一指索引法,一指标引。
标引是文献加工中的重要环节。通过标引,文献工作者赋予文献以检索标识,指明其内容特征的主题类属,而后用以配合书目信息编制出各种目录和索引,或存储于计算机内,以实现文献的检索。标引可按使用检索语言的类型区分,使用分类检索语言时 ,称为分类标引 ;使用主题检索语言时,称为主题标引。主题标引又分为受控标引与非控标引。受控标引指须由事先指定的叙词表(主题词表)中选用相应规范词,对文献进行标引。非控标引又称自由词标引,指不设规范词表而由标引人员直接选用文献内自然语言词,对文献进行标引。标引的实质,是按文献的内容特征对其进行主题类属的划分与区分。[1]
三、编辑流程的数字化和出版流程再造
1.编辑流程的数字化
与内容管理密切相关的是编辑流程管理的数字化,包括出版物选题策划的数字化、报刊采编系统的数字化、编务管理的数字化、审批管理(三审、三校、专家外审)的数字化、稿费管理的数字化等。
无论选题策划还是编辑加工,都离不开统一的数字化平台。因此编辑管理的核心是编辑流程的数字化。编辑流程的数字化是指编辑人员在软件中,实现从选题的申报、采编计划的提出,到来稿的登记、编辑加工、校对、审批,再到稿件的发排、发布、生成纸质媒体、光介质媒体、网络媒体,以及稿费的发放等的全业务环节的数字化管理。这其中,包括许多细节的内容,仅以选题申报单为例,其主要字段就包括稿件类型、稿件来源、稿件语种、征订方式、发行渠道、发货方式、目标读者、资助金额、复制数量、成本预算、盈亏预测、建议单价、建议总价、复制数量、装帧设计、著译者简介、预计交稿时间、预计发稿量、预计出版时间等。
在编辑流程管理中,编辑还可以通过主题词标引软件快速对稿件进行标引,这比手工操作,既快捷又准确。
编务管理的数字化,则包括编务人员在软件中对通过的选题进度实时监控,对发稿计划、出版计划、书号分配、样书(样刊、样盘)及稿件档案等进行管理,对稿酬发放、版权合同等进行管理,对编辑工作量进行统计等。
编辑加工数字化后,编辑可以通过软件提供的编辑器和流程管理系统,对稿件进行编辑处理。这包括对原稿的编辑加工,也包括对排好版式的大样文件进行编辑审核和校对。每{yl}程执行完毕,自动进入下{yl}程。每位编辑均可直接在稿件上进行修改,撰写审读意见,软件会通过不同颜色的设置来标志不同的审稿级别,并自动记录稿件加工痕迹。已送交审批的稿件,原则上本级不再能对其进行修改。到主编或总编辑终审完毕,可进入到发排、数据库生成、网上发布等环节。
如果是B/S系统的软件,编辑还可以实施远程审稿、远程返修、远程退稿等功能。远程管理xx按权限执行,系统中设置什么级别的权限,编辑就按什么级别的权限处理稿件,如一审、二审、三审等。即使是发排和输出胶片,亦可通过软件的远程功能,将排好的稿件传送到印刷厂,由其输出胶片并照相付印。
2.出版流程再造
当出版单位采用了以数字内容为核心的管理系统以后,传统的编、印、发环节将被改变,这就是所谓的“流程再造”。出版单位可以通过流程再造,打通产业链,实现真正意义上的跨媒体出版。
流程再造是近年来数字化过程中的常用词,它不光涉及到出版业,而是整个传统产业数字化改造过程中的必然发展阶段。在西方,它被喻为“从毛毛虫变蝴蝶”的革命,也被认为是继全面质量管理运动后的第二次管理革命。
当80年代计算机技术刚刚在出版领域运用的时候,数字化只是在某一出版环节得到应用,如激光照排代替铅排;到90年代,计算机应用软件的普及,使出版的另一些环节也得以数字化,如销售系统或采编系统等。这些用于局部的出版软件,目的是减轻手工劳动。但随着近年来ERP(Enterprise Resources Planning)的应用,特别是CM(Content Management)系统的应用,使原来以部门或某一环节为单位使用的软件,弊端毕现,这些软件被称为“信息孤岛”要在新一轮的数字化浪潮中加以解决。而ERP或CM都是一种企业全流程的管理软件,它们的应用一定会触及到企业流程的改造。
流程再造以后,出版单位将形成以内容为核心的业务管理模式,内容编辑成为真正的出版主体。因此,数字化并不是编辑的边缘化,而是编辑主体地位的加强。在统一、开放的数字化内容加工平台上,编辑人员可以实现从选题的申报、采编计划的提出,到来稿的登记、编辑加工、校对、审批,再到稿件的发排、发布、生成纸质媒体、光介质媒体、网络媒体的全业务环节的数字化管理。同时,编辑还可以通过主题词标引软件快速对稿件进行标引,生成具有一定功能的内容产品。
下图反映了以数字内容为核心的跨媒体出版流程与传统的单一介质的出版流程的不同:
图-1:以数字内容为核心的跨媒体出版流程
从上图中我们可以看出,出版单位在实行内容管理以后,业务流程从单一介质的线性流程,向跨媒体的辐射状流程过渡,这一过渡将会使整个出版业发生本质的变化,谁能完成这种过渡,谁就能在将来的竞争中立于不败之地。
四、出版集团内容管理系统
出版集团内容管理的技术平台应该是一个专业性很强的高性能数据库管理系统,是构架在功能强大的、高性能的内容管理平台之上的应用系统。其采编平台、加工平台、分销平台等可提供强大的数据采集和加工模块、信息存储及管理模块、信息检索和发布模块等,并且拥有强大的工作流引擎。如下图:
图-2:出版集团内容管理系统示意图
五、跨媒体出版
从传统出版传媒业看,其经营的产品一般都是单一媒体,如图书、杂志、报纸、音像、电视等。2000年前的互联网也仅仅是以单一的“第四媒体”形式出现。但今天,数字技术改变了一切。随着内容产业和内容管理战略的实施,跨媒体已成为出版传媒业的大势所趋。所谓跨媒体,即横跨平面媒体(书、报、刊) 、电子音像媒体(CD-ROM,VCD,DVD)、网络媒体(Website)、甚至分销渠道(Distributing channel)等的多媒体、多渠道平台。目前,国际市场上,新闻集团、贝塔斯曼集团、迪斯尼集团等传媒巨鳄均在通过收购、合并等方式向跨媒体进发。国内的TOM集团、中信集团、和讯网等也都在向跨媒体进军。从目前这些跨媒体集团的形成来看,尚处于资本组建阶段,还不能形成统一的将所有业务整合在一起的跨媒体出版平台。为此,国外xx的技术提供商,如Adobe提出了Network Publishing(网络出版)的战略,而Quark则提出了Active Publishing Server(分布式出版)的计划。
下面是DPOK跨媒体出版发行平台及软件的示意图:
图-3:数字传媒“跨媒体出版平台”示意图
图-4:数字传媒跨媒体出版软件模块(www.dpok.cn)