互联网，请记住我企业库|免费b2b网站

这是译文,原文地

翻译:一米六二(renlu.xu@gmail.com)

最明显的区别是抽取词干后term的处理。

在此之前,所有的词都是词干后再索引,但是没有前缀;所有大写词都并不做词干抽取处理(但是会变小写),并加一下”R”前缀.这样做的理由是，人们希望能够搜索准确的名字（比如像英语词干提取就合并了Tony和Toni 。但当然，这也使得句子开头的一个词，标题文字，另外德语所有名词都是大写，这些都是会这样编入索引。无论是正常的和带R的前缀都会带着位置信息被索引。

现在，我们索引所有词的小写形同时带上位置信息,以及词语未做词干抽取状态加上”Z”的前缀,但这时不带位置信息.默认情况下会使用一个Xapian::Stopper 以避免索引stopwords的词根（测试表明，这会省下数据库1％的大小）。

新的索引方式允许xx短语搜索（这是旧的方式所不支持的）。现在NEAR?操作符只能应用在词语的未取词干的形式上，不过这也够了.我们还可以禁用对查询中大写词语的词根抽取，以在对物定名词搜索时获得更好的效果。现在Omega的$topterms 总是能正确建议一个未抽取词根的形式!

为词根形式添加前缀的主要理由是，他们的量比较少！另外,一个附带好处是，它开创了一种多种语言的词根形式,如Z:en ,Z:fr: 或其他的随便什么语言.

QueryParser中对.结尾的特殊处理(这会因为人们粘贴过来的一段文字而错误地被触发)已经去掉了.此功能之所以出现,主要是为了支持欧米茄的topterms加入词根形式;但是现在Omega已经可以建议未取词干的形式,因此就不再需要这个功能了.

默认情况下，Unicode字符的CONNECTOR_PUNCTUATION 分类下的字符(_和其他常见的一些字符)不用做其他形式的处理就是成词字符了,这样可以更好地索引一些标识符.以前像time_t这种就需要一个短语搜索了.

尾部的+和＃仍然可以包含在Term中（尾部最多可以有3个这样的字符），但-默认不可以了。把他们包含有进来会有益的例子(nethack–,cl-),好处并不十分明显,相反,他们作为连字符更常见更有用.这些例子并不引人注目的好处是它（?的nethack -和?Cl?-），它往往胶连字符到条款。

嵌入的单引号’（(撇号)现在可以包含在Term中了.以前版本中这会使得短语搜索变慢,同时索引中会被带进来垃圾Term(didn’t 会变成ditn 和t）。各种Unicode使用的撇号都映射到了ASCII的形式。

其他很少量的字符（这些字符取一个词的Unicode的定义中）如果是包含在两个成词字符中的话也可以视为是Term的一部分;，。，，和少量其他字符在出现在两个十进制字符之间时会视为Term的一部分.