2010-05-29 21:00:23 阅读14 评论0 字号:大中小
作者:马健
邮箱:主页:
版本:1.00
日期:2006.01.03
声明:
目录
1. 前言
2. 收书
2.1 网页下载
2.2 文件下载
3. 藏书
3.1 解压
3.2 反编译
3.3 整理
3.4 压缩
4. 读书
4.1 读书软件
4.2 读书环境
5. 管书
5.1 全文检索
5.2 文件夹分类
6. 结论
1. 前言
在讨论如何收书、看书之前,先要明确一个问题:书是用来干什么的?对这个问题的回答不同,自然就会有不同的步骤,使用不同的软件。
我的回答是:书{dy}是拿来看的,第二是拿来用的,{jd1}不是拿来摆好看的。因此
下面描述的藏书、读书、管书过程,都是围绕这种看、用的目的展开。如果您不能认同我的观点,欢迎交流,我相信每个人都应该有最适合自己的目的和手段;如果连自己想要的是什么都搞不清楚,也可以先看看,说不定能有点启发。
2. 收书
这里说的“收书”,指的是如何将网络上的电子书,下载到本地硬盘。
在我看来,收书的对象可以分为两种:网页和文件。
所谓网页,指的是书的内容分成若干HTML页,然后有一个HTML页作为目录页,需要把全部HTML页面下载下来,才能获得书籍的完整内容。基本上 所有在线阅读的电子书都是这种格式。
所谓文件,指的是电子书内容已经被打包成了一个文件,可能是zip/rar文件,也可能是exe、chm、pdf等,只要下载一个(分卷压缩文件可 能是多个)文件,即可获得书籍内容。
这两种对象的下载工具可能不同,参见我写的短文《网络下载工具的分类》。
2.1 网页下载
批量下载HTML文件的软件有专门的分类名称,专业点的叫“离线浏览器”,因为原本只能在线浏览的内容,下载完后就可以在本地离线 浏览了;通俗点就叫“搬网站工具”,因为使用这类工具,可以将您想搬的网站整个搬到您的硬盘上,只要您的时间、硬盘、带宽都足够。
离线浏览器推荐使用MetaProducts Offline Explorer (以下简称MOE),理由如下:
不过MOE也不是{wn},有时候为了避免麻烦,也可以先用HtmlOrder*生成一个索引页,再用MOE下载;或者干脆将目录页上的链接全部拖到 FlashGet里下载。
如果只是对某个网页感兴趣,我通常直接用IE保存全部,再用TextForever的“HTML整理”功能去掉无聊的广告链接等, 然后用IE另存为mht格式。如果对TextForever的整理结果不放心,在另存为mht前也可以用FrontPage、Dreamweaver或 UltraEdit32检查、编辑一下网页。FrontPage的特点是容易上手,不过有些网页的显示可能会乱,兼容性不如Dreamweaver。 UltraEdit32则用来快速查看、编辑HTML、css、js等源代码,和某些人惯用的EditPlus差不多,不过因为EditPlus不支持十 六进制编辑,所以我从来不装。
2.2 文件下载
文件下载工具很多,多半都属于断点续传类。下面用表格的形式加以说明。
名称 | 版本 | 说明 |
FlashGet | 1.70 | 这个还用说吗?我最欣赏的是批量下载和站点管理功能。新版已经去掉了广告链接,纯免费,用起来更放心了。 |
FlashFxp | 3.1.10 | 优秀的FTP客户端,主要是速度。 |
FtpList* | 1.14 | 这个其实不是下载工具,不过在从某些龟速FTP下载时,可以先用它列出目录,从中抽取自己 需要的部分,再交给FlashGet下载,要比直接用FTP客户端可靠一些。用它也可以列本地磁盘目录,虽然在某些机器上显示中文可能出现乱码,但是存盘 后用记事本打开就正常了。 |
HtmlOrder* | 1.10 | 这个也不是下载工具,而是MOE、FlashGet辅助工具:根据文件名前缀、后缀及中间 的数字范围,自动产生HTML,包含所需的全部链接(前缀+数字+后缀)。与FlashGet的“添加成批任务”差不多,不过FlashGet只有一个参 数,这个允许同时使用两个参数。生成的结果可以直接用MOE下载,也可以拖到FlashGet里下载。 |
NoteIcon* | 1.20 | 这个同样不是下载工具,但是提供类似FlashGet的下载悬浮窗,某些含有特殊字符的链 接直接批量拖到FlashGet里可能识别错误,可以先拖到NoteIcon里,然后再批量复制/粘贴到FlashGet。 |
IE | 6.0 | 偶尔也有直接下载的时候吧?对于只有一个页面的网页,我一般先用IE保存“网页,全部”, 再整理、编辑,然后用IE另存为mht文件。 |
3. 藏书
为了让书能够“拿来用”,我的藏书过程可以划分为解压、反编译、整理、压缩几个阶段。
3.1 解压
如果下载到的是压缩包,{dy}步当然是解压。
名称 | 版本 | 说明 |
BatchUnRar* | 1.02 | 批量RAR解压工具。某些论坛上的分卷RAR会被重新命名为200512310423834.rar、 200512311289544.rar之类的名字,用它可以直接解,不需要手工改文件名。对加密RAR能够记忆密码,相同的密码只需要输入一次就够了。 |
Zip2Dir* | 1.31 | 批量zip解压工具,能够对输出的目录结构进行控制,对加密zip能够记忆密码,相同的密码只需要输入一次 就够了。我多半用它来解压漫画,而且都是从资源管理器的右键菜单启动。 |
WinRAR | 3.42 | 这个不用说了吧? |
WinZip | 8.0 | 现在真的很少用了。 |
3.2 反编译
反编译的目的,是将不能编辑、查找的打包电子书,包括EXE、CHM、EBX等,解包成原始的HTML、文本等格式。对反编译技术有兴趣的可以参阅 我写的《常见电子书格式及其反编译思路》、《用JavaScript获取网页中的js、css、Flash等文件》,在我的网站上都有全文。
名称 | 版本 | 说明 |
UnEBook* | 1.01 | 可能是目前{zh0}的CHM、HLP、EBX批量反编译软件之一,纯 免费。由于曾经连续下载到几个暗含木马的CHM文件,现在在用UnEBook反编译前,我绝不在本机上打开任何下载到的CHM文件。 |
miniKillEBook* | 1.05 | KillEBook的缩水版,对付基于IE内核的电子书还可以。 |
CtrlN* | 1.04 | IECracker的脱水+减料版,对付基于IE内核电子书。 |
KillEBook | 这个与各位无关。 | |
IECracker | 同上。 | |
unEbookWorkshop | 1.42 | 批量反编译EbookWorkshop电子书的专用工具。 |
Acrobat Professional | 7.03 | 忘记那些杂七杂八的PDF2Word、PDF2Txt吧,这个才 是将PDF转换成Word、txt的王道。7.0升级到7.02后打开PDF速度快了许多。 |
VMware Workstation | 4.0.5 | 大名鼎鼎的虚拟机软件,可以在Windows 2000/XP下构筑一台虚拟计算机,安装其它版本的操作系统。对于从网上下载的EXE电子书,在虚拟机里打开、反编译可能会xxx些。 |
对于目前不能反编译的电子书,如用Desktop Author制作的EXE电子书,我一般看完就删,有必要保留的就根据内容用google查找原始素材网页,毕竟现在绝大多数电子书素材都来自网上。
3.3 整理
我收藏的电子书多半打算在电脑上看,因此保持原始的素材格式(HTML、TXT)就好,不过HTML中可能会有一些无聊的广告链接,或让我看了心烦的css设置,因此在收藏前,我都会删掉或替换掉不想要的内容。一般使用TextForever*的“文本替换”、“整理HTML”、“正则表达式”功能足矣。
而对于TXT文件,整理过程可能还包括文件合并、重新排版等工作。可能的步骤包括:
HTML转TXT->编码转换(繁体转简体)->段落合并->文本替换(或用正则表达式替换)。
有些书我也会在手机上看,整理过程要多一个打成TCR包的环节,可能的步骤包括:
HTML转TXT->编码转换(繁体转简体)->文件合并->打包成TCR。
以前我曾经在不同步骤使用过不同的工具,但是慢慢地就只用TextForever*——我所需要的全部书籍整理功能都已经集成在这 个软件中了,而且支持批量处理、参数记忆。未来如果还会出现目前未知的整理技术,我相信也会被集成到TextForever中,只要这种技术真的对我有 用。
3.4 压缩
素材文件整理完后,当然不可能就这么一堆放在那里,我都是每本书打包成一个zip文件。由于我都用MyReader*看书,看的时 候也没有必要解压。
压缩普通电子书的时候我推荐用Winzip,压缩漫画的时候我只用Zip2Dir*,并且勾选“只打包不压缩”选项。
我不将我收藏的电子书打包成任何其它电子书格式(如EXE、CHM格式)的原因,我想我在本文前言和《常见电子书格式及其反编译思路》一文中已经说清了。而我收藏的所有书籍都只打包成zip格式,{jd1}不打包成rar格式(除非是不得已)的原因也非常简单:zip文件有目录表 (Table of Contents,TOC),随机访问速度很快,而rar文件没有这种优势。至于漫画,都是jpg文件,压缩也压缩不到哪里去,还不如只打包不压 缩,ComicsViewer*访问起来还快点。
4. 读书
4.1 读书软件
在电脑上阅读HTML、TXT格式的电子书,我以前曾经用过好几个读书软件,现在我只用MyReader*。虽然它还远远称不上xx(我手上就有长 长一串改进计划),但是已经足够让我删掉其它读书软件了。另外MyReader*可以与Findstr*联动,实现文本搜索功能,包括zip/rar中的 搜索。
对于漫画、影集等纯图片书,我都用ComicsViewer*看,支持加密zip/rar、支持书签,还允许加注释。
由于业务关系,很多外文资料我只能看PDF版的,这些东西我认为用Acrobat Professional阅读,要比用Adobe Reader方便,专业版就是专业版,不论是复制/粘贴,还是转存成Word格式都强多了。
在手机上读书,我只用MicroReader,有兴趣的可以参阅我写的《几个J2ME读书软件的比较与猜想》。
4.2 读书环境
在我看来,读书不是有了书、有了读书的软件就可以读的,尤其是对于长期阅读来说,环境是否合适不仅直接影响到阅读时的心情和效果,对阅读者的身体健康也有长期影响,不可不慎。遗憾的是,能够把读书环境的重要性上升到如此高度的人实在不多,下面说的东西其实我早就和不少人说过,但是能 够引起共鸣的人实在没有几个,不过我还是忍不住要说,我是不是正在变成唐僧呢?担心ing...
在PC上读书,我认为好的读书环境应该包括以下几个方面:
以上建议的效果如何呢?在您身上效果如何我不敢说,不过对我来说,每年365天,每天看屏幕的时间平均近10小时,已经持续10年以上了(家里的刚 换成液晶近一年,在公司一直用CRT),但是到现在为止我还没有戴眼镜:左眼能够看到视力表最下面一行,右眼能看倒数第2、3行,这还是小时候斜坐着看电 视造成的影响。
在手机上看书时的环境设置,我在《几个J2ME读书软件的比较与猜想》中已经说过,有兴趣的可以去看看。
5. 管书
电子书收多了,如何有效管理、有效使用自然就成了一个问题。
在软件界,相关的管理系统原先叫“文档管理”,后来叫“内容管理”,最近似乎“知识管理”这个词更时髦一些。由于业务关系,我不仅参与过企业级知识管理系统的研发、部署,而且我的同事中还有专人对知识管理系统进行研究,包括大名鼎鼎的Documentum、Interwoven、IBM等公司的产 品。这些产品当然功能强大,不过软件报价动辄上百万,服务器一报一大堆,就算经过一再xx的开发版,也要服务器级PC才跑得动,所以相信除了象我等偶尔利 用工作之便搭搭顺风车外,不会有几个常人消受得起。
专门针对个人的PC版电子书管理软件我也用过几个,甚至还自己写过。所有这些软件虽然在规模上与Documentum等企业级产品没法比,但是在原理上都是一样的:将需要管理的数据分为结构化数据和非结构化数据两个部分分别存储,然后建立相关索引,再提供检索、管理等功能。结构化数 据包括文件的编目信息,如书名、作者、出版社、分类号、内容摘要、关键字、目录等,非结构化数据就是书籍文件本身。这种管理方式其实是从传统图书馆学来的:书籍按书库、书架存放,然后建立书籍卡片供人检索。
在我对企业级、个人级的知识管理软件都有所了解,并且用它们实际管理过一段时间自己的电子书后,我终于悟了:对我这样的超级大懒人来说,所有基于编目的管理都是胡说八道,只有全文检索才是真的。原因很简单:十本、二十本书的时候,我可能还会敲一敲编目;一百、二百本的时候,基本上就 要不想了;到上千本的时候,根本就是在自虐:毕竟我不是以敲编目为业的文档管理员。而全文检索是不需要建编目的。
5.1 全文检索
在对本地文件进行全文检索方面,我也用过几个工具,包括Google等公司的产品,但是这些工具用了没多久就被我放弃了:这些工具 虽然都说是针对个人桌面系统的,但是在原理上还是基于海量检索算法,因此要先对文件建立索引,然后才能基于索引进行检索。虽然建立索引这个过程是自动的,不需要我自己敲什么,但是一来索引需要消耗磁盘空间,二来要随时保持{zx1}索引也不是件容易的事情,对系统性能总会造成影响,所以连Windows本身的索引功能都被我关了,这些软件的索引就更加不能容忍。
好在不需要建立索引的全文检索工具也不是没有,不过除了PDF外,其他能够被检索的文件多半都是文本格式,这也就是为什么我在前面 说了半天要把电子书进行反编译,只保留文本或HTML的原因。
名 称 | 版 本 | 说 明 |
FindStr* | 4.69 | 可以在指定的文件夹(包括文件夹中的普通文件、压缩文件)中查找字符 串,支持多关键字,碰到加密zip/rar时能够自动记忆密码,能够与MyReader*等软件联动,查看搜索结果很方便。 |
WinRAR | 3.42 | 可以在指定的文件夹(包括文件夹中的普通文件、压缩文件)中查找字符 串,不过感觉功能比FindStr弱,尤其是对加密zip/rar的支持。 |
UltraEdit32 | 10.10a | 查找文本信息的速度超快,支持正则表达式,但是不支持在压缩文件中查找。 |
Adobe Reader | 7.03 | 不论是Reader还是Professional,现在都可以对指定 文件夹下的PDF进行全文检索,当然只能检索带文本信息的PDF,对纯图像的PDF没招。 |
5.2 文件夹分类
即使有了全文检索工具,也不可能把所有文件往硬盘里一扔就不管。如果按照合理的分类准则建立文件夹,将文件分类后再放入文件夹保存,不仅自己找起来会快一些,就是用工具检索,也可以缩小检索范围,缩短检索时间。
曾经有人建议用国家标准的图书分类来管理自己的图书,我的意见是:除非您自己就是专业的图书馆管理员,不然还是不要给自己出难题了,如此复杂的东东不是业余人士玩得动的。自己规定一个能搞懂的文件夹结构就好,没有必要大而全,但是拿到一本书后,自己一定要知道该放到哪个文件夹。
下表给出我自己的部分目录结构(二级以下从略),供各位参考。这个结构不一定是最合理的,但一定是我自己最熟悉的。另外分类可能显得有点粗,我的经验是:如果分得太细,有时候反而不知道该归哪类。
一级文件夹 | 二级文件夹 |
动漫游戏 | |
儿童文学 | |
科幻科普 | 科幻小说、科普专著 |
历史军事 | 西方历史军事、东方历史军事 |
时尚生活 | 爱好收藏、传统文化、机械交通、建筑美术、旅游风光、美食文化、摄影艺术、时文选读、书画艺术、数码影音、 体育健身、性福生活、医疗健康、阴阳命理、语言学习 |
外国文学 | 名家名著、英文原作 |
武侠作品 | 名家名著、侠骨柔情、网络武侠 |
言情浪漫 | |
幽默笑话 | |
xx小说 | |
政经法哲 | 经济管理、论理法律、政治哲学、宗教哲学 |
中国文学 | 古典文学(传说演义、经史子集、散文笔记、诗词戏曲、香艳xx、刑兵工礼)、现代文学 |
6、结论
不管别人怎么说,最适合自己的才是{zh0}的。但是要搞清楚什么最适合自己,可能需要一个过程,关键是要在不断借鉴、尝试过程中进行总结。期待能够看到其他人的类似经验。