【蜘蛛之眼】开篇——搜索引擎_上海劳务派遣公司上海劳务输出公司021 ...
(dns.918sh.com)服务热线:13370053470百度,谷歌这类搜索引擎的又称为全文搜索引擎,他的系统结构可分为:搜索器、索引器、检索器和用户接口这四个部分。了解各大系统的工作原理和特性是seoer的高境界。蜘蛛之眼系列文章将从搜索引擎的工作原理出发,结合作为站长被检索所积累的经验,提出一系列需要研究的课题。

搜索引擎搜索器又称蜘蛛或者机器人,蜘蛛负责在互联网中不停漫游,发现并搜集信息。它是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。

目前有搜索器有两种搜集信息的策略:一是从一个起始URL集合开始,顺着这些URL中的超链接,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。 二是将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。

对于谷歌,我们可以肯定的是,这两种搜索策略是交替使用的,那么蜘蛛和蜘蛛之间如何分工,蜘蛛爬行周期的算法,蜘蛛阅读网页的特性,都是我们研究的课题。
当搜索器把搜索到内容以后,会把这些搜索内容提交给索引器,索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。




郑重声明:资讯 【【蜘蛛之眼】开篇——搜索引擎_上海劳务派遣公司上海劳务输出公司021 ...】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——