PDF与WORD_醉眼看浮生_百度空间
--  PDF文件格式转换心得
世事无{jd1},首先解密方面,试过几种软件,{zh0}用的还是Passware_Acrobat Key,其次是Adult PDF Password Recovery v2.2.0和PDF Password Remover v2.2,再次,至于图像扫描的文本转换,中文的话,比较xxxx图片存为不压缩的TIF格式,用清华TH-OCR 9.0版或者汉王文本王进行识别转换,如只是部分识别也可以不存图片,用文通慧视小灵鼠进行屏幕捕获识别,上面这3个OCR软件可以在VeryCD.Com上面下载,如果是文本格式可用Solid Converter PDF转换成Word编辑翻译,不过,Solid Converter PDF支持的语言较多,英文和繁体中文应该也没问题,至于英文方面,文本格式的PDF可以通过ABBYY PDF Transformer 1.0进行文本转换,格式为RTF可以在Word中编辑,图像格式可以使用最近刚推出的OCR软件_IRIS Readiris Pro v10.0,速度效果都还不错,{zh1}翻译软件方面就看大家自己的喜好了。以上是个人的小小心得,仅供各位参考!
最近更新的Recosoft PDF2Office Personal v2.0软件也可以将PDF文件转换成DOC格式,也支持中文,如果有专业版就更好了。IRIS Readiris Pro v10.0也有亚洲语言支持包OCR,如果可以下载到带Keygen的{zx1}版本就可以转换中文了!目前看来只有再等等看了!
部分软件可以在eastgame.net的ISO和0day下载到,也可以去Verycd.com找不到部分!

如果是英文就太简单了,
Abbyy.FineReader.v7.0.Professional可以直接将图片形式的PDF转化为DOC,
而且文字和图表的格式都基本不变,
可惜的是FineReader连祖鲁语都支持,
就是不支持中文。



abbyy 下载地址





所以中文稍微复杂一些,
先用Adobe Acrobat 5.0/6.0将PDF另存为JPG,
然后想怎么OCR就怎么OCR了,
Ken推荐的汉王6.0不错,
我用过的所有中文OCR软件中{zh0}的。
看清楚,
是Adobe Acrobat,
不是Acrobat Reader哈!


简介:
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

工具:
1,清华文通Th-OCR 9.0
TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。{dj2}真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域{lx1}产品——清华紫光文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也xx有实力拥有自己的{zy1}技术。

TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率{zg},居{sjlx}水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ xx对识别结果进行电子文档版面复原功能,所见即所得。
◇ xx日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。

TH-OCR的六大优势:

1. 是{wy}可以识别2万多汉字的多体文字识别系统,汉字识别国内{zy}。

2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。

3. 汉字识别率{zg}。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的{zg}水平。

4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。

5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有{sjlx}水平”。

原版地址:
xx下载: ; 选择第三个链接下载即可
说明:把下载的winocr.exe文件放到安装的目录面,运行即可winocr.exe即可,不要删除和运行winocr32.exe.如果你以前安装过其他的xx补丁,请卸载软件重新安装原始版本.因为程序有自校检功能所以不要把winocr32.exe文件删除和修改.运行补丁包的winocr.exe文件即可.修改快捷方式指向winocr.exe即可(原来指向winocr32.exe)没有字体限制,没有扫描限制,没有通用错误警告,xxxx
这是{zx1}的xx版,据说没有任何限制了,我试了一下,在批量导出为RTF格式时仍会出错。
汉王和紫光各有千秋,喜欢紫光的就去下吧。

2,汉王文豪5800
   文豪5800除了具备文本王经典版的各项功能,诸如操作简单快捷、一键即可实现扫描识别输出到Word文档外,它还能准确识别各种表格和图像,并新增加了批量工程处理、表格拼接、ACDSee图文索引和摘抄高手等人性化的功能设计。它配备了一台光学分辨率为1200dpi×2400dpi、48位色彩增强技术、USB2.0接口的超薄高速扫描仪,对印刷文稿的识别率能达到99.5%以上,能够轻松识别百余种印刷字体和各种图文混排格式的文本。

对于有批量录入需求的用户来说,文豪5800的“工程文件”能够解决批量录入中的很多问题,它能将工作进度自动进行保存,用户再次打开此项工程的时候它就能自动指向工作的断点,免去了重复查找、识别、校对的麻烦。

要提醒用户的是:如果想将扫描的文字或者表格直接转换为doc、rtf、txt等格式保存的话,一定要注意印刷品的放置方向,如果方向反了的话,识别出来的文字会全部都是乱码,虽然在扫描仪上有印刷品放置方向的提示,但是若非实际使用,用户很难把握怎样放置才能得到正确的扫描输出结果——这也在一定程度上反应出产品细节设计的不足。

总体而言,汉王文本王文豪5800在识别印刷品的时候识别率高,识别速度也比较快,对于有大量文字录入需求以及需要将传统印刷品转换为电子档的用户来说,汉王文本王文豪5800是一个非常不错的选择。不过整体来看,文豪5800的配套软件设计得还不够精致,界面不够美观,风格也不够统一,很多细微的地方应该加以改进。和汉王名片通的配套管理软件比较起来,汉王文本王文豪5800的配套软件显然要逊色得多。

汉王文本王文豪5800的使用比较简单,其配套的印刷版使用手册图文并茂,对硬件安装和软件使用进行了非常详尽的介绍;电子帮助文档比较简单。


郑重声明:资讯 【PDF与WORD_醉眼看浮生_百度空间】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——