一个有效的特征项集必须具备以下两个特性:
xx性,特征项能够体现目标内容;
区分性,根据特征项集,能将目标同其他文档相区分。
如何用计算类别词的权重来确切地表示网页类别,除了要求能理解正文的含义之外,还需有总结概括的能力或有较深的领域知识。根据网页文档和标记信息,提取类别词权重可以选择对揭示网页的主题内容具有更加重要的作用的标记,如标题(<TITLE>)、强调(<EM>)等标记。
提取类别词权重的步骤如下:
(1)计算每个类别词在网页中出现的次数;
(2)统计标题(<TITLE>)所标记信息的类别词,如果有,在该类别词计数器中加一个整数TO;
(3)统计一级标题(<H1>),二级标题(<H2>),三级标题(<H3>)所标记信息的类别词,如果有,在该类别词计数器中分别加一个整数T1,T2,T3;
(4)统计强壮(<STRONG>)、强调(<EM>)所标记信息的类别词,如果有,在该类别词计数器中加一个整数T4,T5;
(5)找出超文本中的一些关键句,对在关键句中出现的类别词,除进行上述处理外,再在相应的计数器中加一个整数T6;
(6)对于一些特殊的领域,根据受限自然语言理解技术和有关专家的意见,设立其他加权方案进行加权,对一些专有名词加一个整数T7;
(7)处理同义词或蕴含词。在出现的多个同义词或蕴含词中选择计数器的积分{zg}者,保留该词和相应计数器,然后把其他同义词或蕴含词的计数器中的计分全部加入保留计数器中;
(8)处理近义词,在出现的多个近义词中选择计数器的积分{zg}者,保留该词和相应计数器,然后对其他近义词根据它与保留的近义词的语义近似程度加入保留的计数器。通过上述方法,可以计算各类别词在网页中的权重,从中提取出HTML文档的含义。
这只是基本的的关键词密度分析算法,而实际上搜索引擎对于关键词的分析,要复杂的多。而且,搜索引擎的算法已经比过去智能太多了。搜索引擎算法会设置一系列的规则来识别网站是否有存在SEO问题,如果我们都按照以往的优化教条去执行SEO项目的话,基本上是行不通的。 (www.uh99.com),,,,,, ,, , ,,,(htttp://www.xmncp.com)
(www.uh99.com),,,,,,(http://www.uh99.com)
(www.0086ad.com),,,,,,,,()