关于搜索引擎中文搜索的研究|深圳网站建设|深圳网络公司|深圳网页设计 ...企业库|免费b2b网站

关于搜索引擎中文搜索的研究|深圳网站建设|深圳网络公司|深圳网页设计 ...

目前的主要搜索引擎的模式都是，用户输入一些关键字或者句子，无论是那种，搜索引擎都会首先对用户的输入进行分词，这样可以增加搜索结果的准确性，这是和普通数据库搜索的不同点（普通的数据库搜索，只是简单的用 like %关键字%），然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息，显示的结果会包含网页的相关摘要。

中文搜索引擎相关的技术包含：中文分词、网络蜘蛛、索引库、网页摘要的提取、网页相似度、信息的分类。

1、中文分词

中文分词一直是中文搜索引擎的关键点，中文不同英文，英文每个单词是用空格分开，而中文一个句子往往是一些词的连结，没有分割符，人可以很容易的看懂句子的意思，但是计算机很难开懂。

目前我了解的中文分词方法，几乎都是有自己的中文词典，分词时去词典匹配，达到分词目的，分词的好坏，和词典关系很大。

2、网络蜘蛛

网络蛛蛛是指对浩瀚网络抓取信息的程序，他们往往是多线程，不分昼夜的抓取网络信息，同时要防止对某个站点抓取过快，导致信息提供方服务器过载。

网络蜘蛛的基本原理：先从一个起始页面（建议从yahoo中文目录或者dmoz中文目录）开始抓取，获取此页面内容，摘要，然后提取页面所有连接，蜘蛛接着抓取这些连接，一直源源不断的抓取。这些只是基本原理，实际应用要复杂很多，你可以试着自己写一个蜘蛛，我曾经用PHP写过（PHP不能多线程，缺陷。）

3、索引库

搜索引擎都不会用已经成型的数据库系统，他们是自己开发的类似数据库功能的东西。
搜索引擎需要保存大量网页信息，快照，关键字索引，所以数据量特别大。

4、网页摘要的提取

网页摘要是指对某个网页信息的总结，搜索引擎搜索结果里，往往会有网页标题下面，会有些介绍，让搜索者很容易的发现此文章是不是想要的信息。

5、网页相似度

网上经常有很多内容一样的网站，比如说同一条新闻，各大门户网站都会发布，它们的新闻内容都是一样的。还有一些个人网站，尤其是偷别人网站资料的网站，和别人网站搞的一模一样，这样的网站毫无意义，搜索引擎会自动区分，降低其权值。

目前我研究的计算网页相似度的几种方法如下：

1) 根据网页摘要来比较，如果多个网页摘要的md5值一样，证明这些网页有很高的相似性。

2) 根据网页出现关键词，按照词频排序，可以取N个词频高的，如果md5值一样，证明这些网页有很高的相似性。

6、信息的自动分类

网络的信息实在是太庞大了，如何对其进行分类，是搜索引擎面临的难题。要让计算机对数据自动分类，先要对计算机程序进行培训。

郑重声明：资讯【关于搜索引擎中文搜索的研究|深圳网站建设|深圳网络公司|深圳网页设计 ...】由发布，版权归原作者及其所在单位，其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实，请读者仅作参考，并请自行核实相关内容。若本文有侵犯到您的版权，请你提供相关证明及申请并与我们联系（qiyeku # qq.com）或【在线投诉】，我们审核后将会尽快处理。

—— 相关资讯 ——