(dns.918sh.com)服务热线:13370053470百度,谷歌这类搜索引擎的又称为全文搜索引擎,他的系统结构可分为:搜索器、索引器、检索器和用户接口这四个部分。了解各大系统的工作原理和特性是seoer的高境界。蜘蛛之眼系列文章将从搜索引擎的工作原理出发,结合作为站长被检索所积累的经验,提出一系列需要研究的课题。 搜索引擎搜索器又称蜘蛛或者机器人,蜘蛛负责在互联网中不停漫游,发现并搜集信息。它是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 目前有搜索器有两种搜集信息的策略:一是从一个起始URL集合开始,顺着这些URL中的超链接,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。 二是将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。 对于谷歌,我们可以肯定的是,这两种搜索策略是交替使用的,那么蜘蛛和蜘蛛之间如何分工,蜘蛛爬行周期的算法,蜘蛛阅读网页的特性,都是我们研究的课题。 当搜索器把搜索到内容以后,会把这些搜索内容提交给索引器,索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。 |