温馨小窝» 怎样解决B2B网站(行业网站)搜索精准性问题

查全率与查准率是衡量搜索的主要指标,一般而言,查全率高,查准率就低;查准率高,查 全率就低;很难两全。而且,相对于通用搜索引擎,用户对于分类信息网站在方面的要求要高很多。然而由于分类信息网站自身构架等各方面的原因,目前没有一个 分类信息网站能很好的解决这个问题。而追根溯源,此问题其实可以归结为如何对信息进行聚类,为此,本文提出一种新的信息聚类方法来 尝试解决此问题。

  • 分类信息网站搜索之困

以下以一个阿里巴巴(注意:阿里巴巴是典型的分类信息平台)的搜索实例来说明目 前分类信息网站的搜索中存在的这种问题。
——————————————————————————————————————————————————
测试对象:阿里巴巴
测试时间:2008年9月13日。
测试目的:选择阿里巴巴上生产毛巾的所有供应商
测试内容详情:  在阿里巴巴上输入”毛巾”这个关键字进行搜索。
结果:发现有87934条匹配的搜索结果,这些结果分布在18个类目中。分别为:# 面巾(23637)# 广告促销礼品(3269)#浴巾(12305)# 其他毛巾(1778)# 手巾(5367)# 毛巾架、杆、环(5093)# 沙滩巾(4052)#茶巾(2177)#不锈钢管(1637)# 盘子(1475)# 酒店客房用品(1361)# 电热线(1214)# 绒布(1166)#竹木工艺品(714)#卫浴用具(655)# 地巾(641)# 凉、拖鞋(567)# 女式浴衣(558)。
分析:从搜索结果可以看出,竟有8万多条结果,显然,对此,大多数人都只能翻看前几页,很难有人会把所有的信息都查看一遍.而且对于这8万多条结果, 翻了几页看看,发现一些诸如"毛巾架"等产品并不是是自己需要的,但是却混杂在搜索结果中;另外,稍做分析发现,"面巾",”浴巾”等其实也是毛巾的一 种,从符合搜索意图的角度来看,其也应该出现在搜索结果中。
另外,从上面的结果可以看出,用户还可以点击诸如"面巾"等类目,把搜索范围缩小,获得更高的精度,但是同时查全率却大幅降低。

综上,从这个搜索结果来看:
1、只通过关键词搜索,查准率、查全率都偏低。
其查准率低的主要问题在于存在大量仅在字面上符合搜索意图的信息出现在搜索结果中。就比如“毛巾架”中包含“毛巾”二字,但是实际上其与我们想要的“毛 巾”不是同一类;
查全率低的主要原因在于,一种信息往往可以有多种称谓,而我们的搜索通常只能列出与搜索关键词字面匹配的信息,而很难列与搜索关键词字面虽不匹配,但含义 相同的信息。在这里就比如我们搜索“毛巾”时,其实也想得到诸如“面巾”,“浴巾”等各种的信息。
2、通过关键词加类目查找,查准率相对提高,但是查全率大幅下降。
3、仅通过类目查找,这种方法很少使用。其问题在于用户很难找到相应类目,而且同样存在查全率与查准率的问题。

——————————————————————————————————————————————————
以上是阿里巴巴的测试结果。同时,通过对58.com、ganji.com、kijiji.cn、koubei.com等分类信息网站的测试发现,几 乎毫无例外,都存在同样的问题。

  • 现有的信息聚类方法之弊

通过上述测试可以看到,此时的搜索难以同时解决查全率与查准率的问题。主要原因在于:一方面难以把仅字面符合搜索意图的信息出搜索结果中剔除; 另一方面难以把字面虽不符合搜索意图但是含义上符合意图的信息增加到搜索结果中。 对于这两点,概括来讲,就是难于对信息进行良好的聚类分析。
目前,对于信息的聚类主要基于两方面。一方面是基于关键词,假如两条信息字面上雷同(也包含通过语料库引申出来的字面上雷同),那么它们更有可 能是同类;另一方面,是基于(人工)分类,假如两条信息同放在一个类目,那么它们更有可能是同类
举例说明:对于两条信息,比如“供应优质毛巾”,“供应毛巾”这两条信息,系统认为它们是同类信息的原因在于,一方面,它们都包含关键词“毛巾”,另 一方面。它们都放置在“毛巾”这个类目。而不是因为他们从从含义上来讲本来就是同类。
当然,通用搜索引擎更多的是基于关键词来对信息进行聚类,而且还通过建立诸如同义词库等语料库来提高聚类的效果,但是这个工作费时费力,成本很高,自 动化程度很低。而对于分类信息网站来说,则似乎找到了一种较好的解决方法。既然叫分类信息网站,当然也就是人工对信息进行分类。
其过程大致如下:系统的运营商首先建立一个分类体系,当然在这中间也有可能有用户的参与;然后用户在发布信息的时候为其信息挑 选合适的类目。这时候,我们假设这个类目体系足够xx,然后用户在发布信息的时候都能准确无误的把信息放在合适的类目上,那么我们的搜索结 果将是相对比较xx的。但是,实际上上述说法只能是一个遥不可及的梦想。
因为:
首先:对于系统运营商而言,在其主导下建立的类目系统永远都不会建设xx。原因在于:1、因为世界上没有xx相同的两个事物,而且从不 同的维度又可以对信息进行不同的分类,这就使得理想的信息的分类应该是最终细分到某一条信息为止,即这个分类体系是具有近乎无限可分性的,极为复杂。2、 系统运营商对行业不了解,难于建立一个符合用户习惯的分类体系。
其次:假设系统运营商可以建设起一个比较xx的分类体系,同样用户也很难把信息放置在正确的类目。原因在于:1、网站提供的类目都是错 的,所以用户不可能把产品放到合适的类目;2、网站提供的类目是xx的,但是用户对其类目体系不熟悉,分类体系也比较复杂,所以用户很难把信息放置在正确 的类目。
以上两点就导致了难于对信息进行xx的聚类,也就出现了案例中所述的种种问题。

  • 从间接关联到直接关联

综上所述,目前的分类信息网站对于信息的聚类实质上是基于 两方面来考虑。一方面是基于关键词,另一方面是基于分类。即想要确定两条信息是否是同类,就比如上述案例中的“供应优质毛巾”,“供应毛巾”这两条信息, 它们是首先分别与毛巾所属于的分类及关键词形成直接关联,然后两者再形成间接关联的。如下图所示:


图1

然而,回到问题的实质,追本溯源,既然我们要做的事情是要确定两条信息的相关性,那么为何要舍本逐末,采取间接关联的方法,而不采取直接关联的方法呢?即 直接在两条信息间建立关联。如下图所示:


图2

通过两条信息间直接建立的关联比通过挑选类目以或填写关键词获得的间接关联更优的原因在于:1、用户的确很有可能错误判断自己发布的信息应该属于什么类 目,但是他却很容易判断自己的信息与竞争对手的其它哪些信息是同类;2、一般而言,用户对自 己的竞争对手都是非常了解的,并且不管其竞争对手为其自己的信息赋予什么样的名称,这些信息都很容易被找出来。

假如我们在任意的两两信息之间根据相关性建立起各种关联,那么我们就可以形成如下的社会化关系图表(有向 图)。这时,我们再来看看此时的搜索。此时,用户只要通过某种方法(比如通过关键词搜索),先 找到一条他所需要的信息,那么他就可以通过这条信息,通过某种方法找到几乎所有的他想要的信息。如下图所示:


图3

当然,要做出这么一张信息间的社会化关系图表,就必须对用户的信息发布流程做某种改良,具体可为:用户在分类信息网站发布信息时,在传统的方法(一般为, 先挑选信息分类,再填写基本信息)的基础上增加一个挑选同类信息的步骤(可为,先挑选同类信息,再挑选信息类目,再填写基本信息)。如下图所示:


图4

  • 源动力,博弈之美

显然,有利必有弊,其弊端在于:比如,它增加了信息发布的工作量,当然这个问题其实并不是问题,因为对于用户而言,如果新方法能为其带来利益的话,信息发 布流程稍微复杂一点并不是不能接受的。
所以,关键成问题在于如何能让用户从中获益。
我们知道,如果我们把按上述方法建立的关联看作是类似于互联网上的各种链接,这种链接的特质在于:对于任意的两个网页A、B,假如网页A向网页B发出一个 单向链接,那么用户在查看网页A时,会存在一个概率通过此链接查看到网页B;而此时假如A和B是竞争对手的话,那么显然,A会因此而受损,B会因此而获 益。
显然,此时A会失去制作链接的源动力。
所以此时,系统必须做出与互联网链接xx相反的规定:对于任意的两条信息A、B,假如信息A向信息B发出一个单向链接(图 4中为何是有向图的原因),那么用户在查看信息B时,会存在一个概率通过此链接查看到信息A,此时信息A会从中获益。现在我们看到,从某个角度来看,这与 互联网的链接方式恰恰相反。此时用户已经有了按新方法发布信息的源动力。
当然,实际的规则会远比以上复杂,而且,更为缜密的推理表明,用户在挑选同类竞争对手的信息时,往往是首先挑选他心目中{zyx}的竞争对手的信 息,然后再挑选稍差的,依此类推。所以此时,其实我们也顺便解决了“怎样对信息(产品)的质量进行评估”的问题。? ? 不过,前题条件是我们为此制定一个恰当的规则(略)。

郑重声明:资讯 【温馨小窝» 怎样解决B2B网站(行业网站)搜索精准性问题】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——