谷歌算法统治互联网的秘诀(2)_沈阳网站建设|沈阳网站制作|沈阳网页设计 ...
“热狗”与“煮狗”

  以谷歌确定同义词的方法为例。辛格表示:“我们很早就有了一个有趣的发现,那就是用户会更改查询的关键词。比如有人会搜索‘dog’,然后改成‘puppy’,因此搜索引擎就会得知‘dog’和‘puppy’可能是可以互换的。引擎也会知道,当你烧(boil)水时,水会变热(hot)。我们从人类的语义中学习,这是一个很大的进步。”

  但这也有障碍。谷歌的同义词系统知道“dog”和“puppy”类似,沸(boiling)水是热的(hot)。但它同时会认为“hot dog”(香肠夹心面包)和“boiling puppy”(煮狗)是一样的。通过路德维希·维特根斯坦(Ludwig Wittgenstein)的理论,该问题于2002年得以解决。该理论涉及上下文如何决定词语的意思。当谷歌抓取并存储数以亿计的文件和网页时,它会分析哪些词是彼此邻近的。包含“hot dog”的页面通常也包含“面包”、“芥末”、和“棒球”,而不会包括对杂种狗的猎杀内容。这就帮助了搜索引擎理解“hot dog”和其他成千上万个词语的意思。辛格说:“现在,搜索引擎会知道bio在‘Gandhi bio’中是‘biography’(传记)的缩写,而在‘bio warfare’中是‘biological’(生物)的缩写。”

  在谷歌的发展过程中,该公司不断设法增加新的排序信号,并且兼顾不会影响用户的核心体验。每几年就会对系统做一次重大修改(有点像Windows的新版本),这在山景城是人尽皆知的,但其他人不会关注。

  辛格说:“我们的任务是对这架以每小时1000公里在三万英尺高空飞行的飞机的系统进行根本性更改。”2001年,为了应对互联网的飞速发展,辛格事实上xx改写了佩奇和布林的算法,以便使谷歌可以快速增加新的信号(新信号之一可以区分商业页面和非商业页面,从而为购物者提供更好的结果),也是在这一年,一位名叫克利什纳·伯哈拉特(Krishna Bharat)的工程师认为xx网站上的链接应该具有更大的权值,因此设计了一个强大的信号以便赋予这些链接更大的可信度(这是谷歌的{dy}个专利),{zx1}的一项修改的代号为“xxx”,对整个系统进行了修改,从而使得工程师可以更容易地增加新的信号。

  谷歌识别语义的过程

  谷歌以善于鼓励这些创新而闻名,每年公司都会举办“疯狂搜索创意”内部展示活动,以便鼓励那些离奇但有应用潜力的创新。但大多数时候,改进的过程是充满艰辛的,需要矢志不渝的精神,需要面对尝试过程中的打击。有一个不成功的搜索已经成为xx:2001年,辛格得知输入“audrey fino”时无法搜到预期内容,而只是返回一些赞扬奥黛丽·赫本(Audrey Hepburn)的印度网页,因为在印度语中“fino”是好的意思。辛格说:“我们知道audrey fino是个人名,但我们的系统没这么聪明。”

  这一失败使辛格花了多年时间,试图改进谷歌对姓名的搜索结果——因为姓名占总搜索量高达8%。为了解决这一问题,他不得不掌握“bi-gram拆分”,也就是将多个词分割成独立的单元。比如,“new york”合在一起组成一个bi-gram,指的是纽约。但也有三个字的情况,比如“new york times”,意思是xxxx,很明显二者指的不是同一样东西。如果用户输入的是“new york times square”,意思又变成了纽约时代广场。人类可以很容易做出区分,而谷歌不是由人工控制的,它依靠的是算法。

  “Mike Siwek”这一搜索可以解释谷歌是如何解决这一问题的。辛格输入显示代码的命令后,我们就可以看到信号是如何决定搜索结果排序的:通过bi-gram可以确定mike siwek是一个人名,lawyer是一个同义词,mi是一个地名。辛格说:“从工程师的角度进行解构,系统会对这些词进行分割,它会发现lawyer不是姓氏,siwek不是中间名。同时lawyer也不是密歇根的一个镇,因此它是attorney的同义词。”

  这是谷歌从无数次搜索中获得的可贵知识。石头可以是“rock”,可以是“stone”,还可以是“boulder”(漂石)。如果用户输入“rokc”,谷歌仍会知道他想找的是“rock”。但如果在“rokc”前加“little”,谷歌则会知道这是“Arkansas”(阿肯色州)的首府。“Arkansas”的缩写是“ark”,与诺亚方舟同形,但谷歌会将二者区分开来。辛格说:“搜索中最重要的是理解用户的意图,因此你不是在匹配词语,而是在匹配意思。”

  谷歌一直在不断改进。近期,谷歌工程师莫琳·海曼斯(Maureen Heymans)发现了“Cindy Louise Greenslade”的搜索结果的问题。用户输入这些单词时,算法会认为应该找一个名叫Cindy Louise的人,于是在加利福尼亚的加登格罗夫市找到了一名心理学家,却没有把姓名为“Cindy Louise Greenslade”的人的网页放在结果的前十名。海曼斯发现,这是因为“Cindy Louise Greenslade”习惯将名字缩写成“Cindy L. Greenslade”。她表示:“我们的搜索引擎应该更聪明一点。”于是她增加了一个信号,用来寻找中间名的缩写。现在正确的结果已经被排在了第五位。

  层出不穷的创新

  在任何时候,谷歌高效运转的测试系统都会进行几十个这种改进。谷歌在全世界专门雇佣了上百人,这些人坐在家里的电脑前判断更改后的结果是更好还是更差。但谷歌还有一个更大的测试团队,这就是成千上万的谷歌用户,他们不知不觉地加入了这项长期的质量实验。

  每当工程师想测试一项技术调整时,他们会在一小批随机用户中运行这些算法,而绝大多数的用户扮演的是参照组的角色。需要测试的更改太多,因此谷歌放弃了一次只测试一项技术调整的策略。搜索质量工程师帕特里克·赖利(Patrick Riley)表示:“在大多数搜索过程中,你同时都处于多个‘实验组’和‘参照组’之中。”但他随后又做出了更正:“事实上,所有搜索都被卷入了实验之中,因此用户每次用谷歌搜索,都作了一次‘小白鼠’。”

  这种灵活性——增加信号、更改代码、立即测试的能力——就是谷歌团队为什么说他们可以应对来自必应、Twitter和Facebook的任何挑战的原因。事实上,在过去的六个月中,谷歌进行了200多项改进,其中一些似乎在模仿(但超越了)它的竞争对手(谷歌表示这只是巧合,称其多年来一直在增加新功能),其中之一就是实时搜索。

  佩奇数月前曾表示谷歌应该每一秒钟都搜索整个网络,因此使这一功能备受期待。当用户搜索具有时效性的话题时,谷歌结果页面的10个蓝色链接中会有一个“{zx1}结果”框。该框带有拖动条,显示的是从新闻媒体、博客和Twitter等获得{zx1}内容。同样,谷歌使用信号来确保最有用的tweet(Twitter上发布的消息)出现在实时信息框中。

  除了实时搜索,谷歌还引入了一项新功能,称作“Goggles”。该功能可以将用户手机上拍摄的照片视作搜索请求。谷歌一直努力将搜索变成一种随时随地的行为,“Goggles”也是该努力的一部分。有了摄像和语音识别功能,智能手机就会变成你的眼睛和耳朵。只要找到正确的信号,任何东西都可以变成搜索请求。

  成功的根源:雇佣合适的人才

  谷歌的强大计算能力和带宽为公司提供了无可争辩的优势。有人声称这种优势使创业公司无法对其发起挑战。但曼博表示,谷歌成为{ldz}并非仅仅因为其基础设施。他说:“最、最、最重要的因素是我们雇佣了合适的人才。”

  按照所有的标准,陆奇都是算得上一名合适的人才,他是一位48岁的电脑科学家。曾经与陆奇在雅虎共事的曼博表示:“我对他怀有{zg}的敬意。”但陆奇去年初离开了谷歌,前往微软担任必应团队负责人。在被问到他的使命时,穿着牛仔和必应T恤、身材瘦小的陆奇字斟句酌地轻声答道:“我们需要始终记住这是一个长久的旅程,这一点极其重要。”他的眼神中流露出“我不会离开”的神情,就像电影《杀死比尔》中的乌玛·瑟曼(Uma Thurman)一样。

  在过去十年中赢得了浏览器战争的微软,在搜索方面似乎怀有“君子xx,十年不晚”的想法,因为它确信用户除了谷歌算法还需要别的东西。微软搜索发展主管哈利·沙姆(Harry Shum)表示:“如果我们不对算法进行更改,将很难与现在的赢家抗衡,但我们打算对算法进行改进。”

  然而,即使必应对算法进行改进,谷歌很可能做出同样的更改。这就是谷歌成为这样一个令人生畏的对手的原因,它已经开发出了一个足够敏捷的机器,以致可以吸收任何可能对其造成威胁的创新——同时提供着对手无法匹敌的高质量搜索结果。任何人都可以发明一种买机票的新方法,但只有谷歌知道如何找到Mike Siwek。(钦亮)

  谷歌算法是一项进行中的工作——不断的调整和改进是为了提供更高质量的搜索结果。以下是PageRan推出之后的一些主要增加项和更改。——史蒂芬·列维

  附:谷歌搜索大事记

  1997年9月:Backrub搜索引擎

  Backrub搜索引擎在斯坦福大学的服务器上运行了近两年,之后改名Google。其突破性创新在于:按照一个网站被链接(网络上指向该网站的链接)数量和质量对搜索结果进行排序。

  2001年8月:新算法

  搜索算法被xx改写,以便更易于添加新的排序标准。

  2003年2月:本地连接分析

  这一功能给与xx性网站上的链接更大的权值,也使谷歌获得了{sg}专利。

  2003年夏:Fritz

  该项目使谷歌可以不断随时更新索引,而无需成批更新。

  2005年6月:个性化结果

  用户可以选择让谷歌分析其搜索行为,以便提供个性化结果。

  2005年12月:Bigdaddy

  对引擎进行了更新,使其可以更广泛地抓取网页内容。

  2007年5月:通用搜索

  在图片搜索、谷歌新闻、图书搜索的基础之上,通用搜索使用户可以在同一搜索结果页面上获得不同媒介的内容。

  2009年12月:实时搜索

  实时显示Twitter和博客上的更新。

我们专注的领域,,,,,,沈阳网页设计,,.



郑重声明:资讯 【谷歌算法统治互联网的秘诀(2)_沈阳网站建设|沈阳网站制作|沈阳网页设计 ...】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——