[书]深入搜索引擎


  作者:[美]Ian H. Witten(艾伦 H.威顿),Alistair Moffat(亚里斯蒂尔.莫夫特), Timothy C. Bell (Author)(提摩太 C.贝尔)著 梁斌 译

  出 版 社: 电子工业出版社

  出版时间: 2009-5-1

  页数:508页

  开本: 16开

  ISBN : 9787121084911

  分类: 图书 >> 计算机 >> 搜索引擎

  定价:¥75.00元

  简介:本书是斯坦福大学信息检索和挖掘课程的{sx}教材之一,并已成为全球主要大学信息检索的主要教材。本书理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其{zd0}的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。

  本书作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科 生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。

  作者简介:Ian H.Witten 是新西兰Waikato大学计算系科学系教授,是ACM、新西兰皇家学会会员。是英国、美国、加拿大和新西兰的专业计算、信息检索和工程协会会员。他是 《The Reactive Keyboard》和《Text Compression》的作者之一,这两本书分别出版于1992年和1990年。各大会议和期刊论文都能看到他的论文。

  Alistair Moffat是墨尔本大学计算科学系的副教授。在各大会议和期刊中发表了大量论文,这些论文包括的领域有:关于文本和图像压缩的算法和数据结构,字典和优先级队列的自适应数据结构,以及自适应搜索和排序算法。

  Timothy C.Bell是Canterbury大学计算机科学系系主任。是出版于1990年的《Text Compression》一书的作者。在各大期刊和会议上发表了多篇论文,这些论文涉及文本和图像压缩,计算机和音乐,计算机教育等。

  目录:

第1章 概览 1
 1.1 文档数据库(DOCUMENT DATABASES) 7
 1.2 压缩(COMPRESSION) 10
 1.3 索引(INDEXES) 12
 1.4 文档索引 16
 1.5 MG海量文档管理系统 20
 1.6 进一步阅读 21
第2章 文本压缩 23
 2.1 模型 26
 2.2 自适应模型 29
 2.3 哈夫曼编码 32
  范式哈夫曼编码 38
  计算哈夫曼编码长度 44
  总结 51
 2.4 算术编码 51
  算术编码是如何工作的 53
  实现算术编码 56
  保存累积计数 59
 2.5 符号模型 61
  部分匹配预测 61
  块排序压缩 64
  动态马尔科夫压缩 69
  基于单字的压缩 71
 2.6 字典模型 73
  自适应字典编码器的LZ77系列 74
  LZ77的Gzip变体 78
  自适应字典编码器的LZ78系列 79
  LZ78的LZW变体 81
 2.7 同步 84
  创造同步点 84
  自同步编码 87
 2.8 性能比较 89
  压缩性能 91
  压缩速度 94
  其他性能方面的考虑 97
 2.9 进一步阅读 98
第3章 索引 102
 3.1 样本文档集合 106
 3.2 倒排文件索引 110
 3.3 压缩倒排文件 115
  无参模型(Nonparameterized models) 117
  全局贝努里模型 120
  全局观测频率模型(Global observed frequency model) 123
  局部贝努里模型(Local Bernoulli model) 124
  有偏贝努里模型(Skewed Bernoulli model) 125
  局部双曲模型(Local hyperbolic model) 127
  局部观测频率模型(Local observed frequency model) 128
  上下文相关压缩(Context-sensitive compression) 130
 3.4 索引压缩方法的效果 133
 3.5 签名文件和位图 134
  签名文件 135
  位片签名文件(Bitsliced signature files) 139
  签名文件分析 144
  位图 147
  签名文件和位图的压缩 148
 3.6 索引方法的比较 151
 3.7 大小写折叠、词根化和停用词 153
  大小写折叠 154
  词根化 154
  影响索引长度的因素 155
  停用词(stop word) 156
 3.8 进一步阅读 159
第4章 查询 162
 4.1 访问字典的方法 166
  访问数据结构 167
  前端编码(Front coding) 170
  最小xx哈希函数 173
  xx哈希函数的设计 176
  基于磁盘的字典存储 181
 4.2 部分指定的查询术语 182
  字符串暴力匹配(Brute-force string matching) 182
  用n-gram索引 183
  循环字典(Rotated lexicon) 184
 4.3 布尔查询(BOOLEAN QUERY) 186
  合取查询(conjunctive query) 187
  术语处理顺序 188
  随机访问和快速查找 189
  分块倒排索引 192
  非合取查询(Nonconjunctive query) 194
 4.4 信息检索和排名 195
  坐标匹配(Coordinate matching) 195
  内积相似度 196
  向量空间模型 202
 4.5 检索效果评价 205
  召回率和xx率 205
  召回率-xx率曲线 207
  TREC项目 208
  万维网搜索(World Wide Web Searching) 212
  其他有效性评价方法 215
 4.6 余弦法实现 216
  文档内频率 217
  余弦值的计算方法 220
  文档权重所需的内存 222
  累加器内存 227
  快速查询处理 228
  按频率排序的索引 229
  排序 233
 4.7 交互式检索 236
  相关性反馈 237
  概率模型 239
 4.8 分布式检索 241
 4.9 进一步阅读 245
第5章 索引构造 248
  计算模型 251
  索引构造方法概览 252
 5.1 基于内存的倒排 253
 5.2 基于排序的倒排 256
 5.3 索引压缩 261
  压缩临时文件 261
  多路归并 264
  原地多路归并 265
 5.4 压缩的内存内倒排 271
  大内存倒排 271
  基于字典的切分(Lexicon-based partitioning) 276
  基于文本的切分 278
 5.5 倒排方法的比较 281
 5.6 构造签名文件和位图 282
 5.7 动态文档集合 284
  扩展文本(Expanding the text) 284
  索引扩展(Expanding the index) 285
 5.8 进一步阅读 290
第6章 图像压缩 292
 6.1 图像类型 293
 6.2 CCITT二值图像的传真标准 297
 6.3 二值图像的上下文压缩 301
  上下文模型 304
  二值上下文模型 307
  “超视力”压缩(Clairvoyant compression) 309
 6.4 JBIG:二值图像标准 310
  分辨率降低(Resolution reduction) 311
  模板和自适应模板 316
  编码及概率估计 317
 6.5 连续色调图像的无损压缩 318
  GIF和PNG无损图像格式 319
  FELICS:快速、有效且无损图像压缩系统 321
  CALIC:基于上下文自适应无损图像解码器 325
  JPEG-LS:无损图像压缩新标准 326
 6.6 JPEG:连续色调图像标准 328
 6.7 图像的递增传输 334
  金字塔编码 335
  金字塔编码的压缩 335
  中位数聚合 337
  误差模型 338
 6.8 图像压缩技术总结 339
 6.9 进一步阅读 341
第7章 文本图像 343
 7.1 文本图像压缩概念 345
 7.2 有损和无损压缩 349
 7.3 标记抽取 351
  跟踪标记的边界 351
  xx图像中的标记 354
  按自然阅读顺序排序标记 356
 7.4 模板匹配 357
  全局模板匹配 358
  局部模板匹配 360
  基于压缩的模板匹配 361
  库模板筛法 364
  评价模板匹配方法 365
 7.5 从标记到符号 369
  库构造 369
  符号及其偏移量 371
 7.6 编码文本图像分量 372
  库 372
  符号数 373
  符号偏移 373
  原始图像 374
 7.7 效果:有损和无损的模式 376
 7.8 系统考虑 381
 7.9 JBIG2:图像文本压缩标准 383
 7.10 进一步阅读 385
第8章 混合图文 386
 8.1 方向 388
  用Hough变换检测直线 389
  左侧留白查找 391
  投影轮廓 392
  从斜率直方图到文本谱 397
 8.2 切分 401
  自下向上的切分方法 401
  自上向下的组合的切分方法 403
  基于标记的切分 404
  使用短文本字符串切分 406
  利用文本句法切分 409
 8.3 分类 410
 8.4 进一步阅读 413
第9章 系统实现 415
 9.1 文本压缩 416
  选择压缩模型 417
  选择编码器 420
  哈夫曼编码的限制 422
  长度限制的编码 428
 9.2 文本压缩效果 433
  压缩有效性 433
  解压速度 437
  解压内存 437
  动态文档集合 440
 9.3 图像和文本图像 442
  压缩二值图像 444
  压缩灰度图像 445
  压缩文本图像 445
 9.4 构造索引 447
 9.5 索引压缩 449
 9.6 查询处理 451
  布尔查询 451
  排名查询 454
 9.7 进一步阅读 456
第10章 信息爆炸 458
 10.1 信息技术发展2 000年 458
 10.2 INTERNET:一种全球信息资源 460
 10.3 纸张问题 463
 10.4 面对信息爆炸 465
  网页搜索引擎 465
  基于代理的信息检索 467
  数据挖掘 469
 10.5 数字图书馆 469
 10.6 更好地管理海量数据 471
 10.7 小就是美 473
 10.8 对生活的个人信息支持 475
 10.9 进一步阅读 476
附录A MG系统指南 478
 A.1 安装MG系统 478
 A.2 一个简单的存储和检索例子 480
 A.3 数据库创建 485
 A.4 对一个索引文档集合进行查询 489
 A.5 非文本文件 491
 A.6 图像压缩程序 493
附录B 新西兰图书馆 494
 B.1 什么是NZDL 494
  其他文档集合 497
  文档集合的发展 501
  音频集合(audio collections) 502
  音调索引(Melody Index) 503
 B.2 NZDL是如何工作的? 505
  原始文档 505
  搜索和索引 506
 B.3 影响 508
 B.4 进一步阅读 508



郑重声明:资讯 【[书]深入搜索引擎】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——