搜索引擎的三大定律

搜索引擎的三个定律

相关性定律、人气质量定律、自信心定律

1. 第一定律 相关性定律

听起来像是一篇学术论文,的确,就连第一、第二定律的提法以前也没有过,但是第一、第二定律的内容却早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索或信息检索,也有叫全文检索的。

那时的相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面) 。早期的搜索引擎结果排序都是基于第一定律的,如Infoseek ,Excite ,Lycos 等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。

词频统计其实根本没有利用任何跟网络有关的特性。然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,可是按照搜索引擎的第一定律,对这两个网页的排序应该是一样的。为了能够排在某些检索结果的前几位,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言。这种情况到1996年开始有了改变。

2. 第二定律 人气质量定律

1996年4月,我到赌城拉斯维加斯开一个有关信息检索方面的学术会议,会议的内容就像拉斯维加斯的天气一样,照例比较枯燥乏味。但远离公司的我,却难得有一个静下心来认真思考问题的机会。就在听一个毫不相干的论文演讲的时候,我突然把科学引文索引的机制跟Web 上的超级链接联系起来了——感谢北大,她在我上大三的时候就教授了我科学引文索引的机制,美国恐怕没有一所大学会在你本科的时候教这玩艺儿。

科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。再加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析。

我意识到这是一个突破性的东西,回去以后就很快总结了思路,于1996年6月

申请了这一方面的美国专利。1999年 7月6号,美国专利和商标局批准了专利号为5920859的,以我为惟一发明人的专利。大约在1996年底,斯坦福大学计算机系的两位研究生也想到了同样的解决方法,他们后来创立了一个叫Google 的搜索引擎,Google 的网站上至今仍然说他们的这项技术是Patent-pending(专利申请中) ,不知道美国专利局是不是还会再批这样的专利。无论如何, 超链分析的方法1998年以后逐渐被各大搜索引擎所接受,由于链接是网络内容的一个根本特性,这时候的搜索引擎才开始真正利用网络时代的检索技术。

3. 第三定律 自信心定律

人气质量定律解决的还只是一个技术层面的问题,然而搜索引擎从诞生的那一天起,从来就不是一个纯技术现象,它融合了技术、文化、市场等各个层面的因素。解决搜索引擎公司的生存和发展问题需要搜索引擎的第三定律——自信心定律。 1998年的时候,没有太多的人拿一家远在硅谷500英里以外,刚刚成立的,叫作GoTo.com (现已更名为Overture )的公司当回事儿。它不过是买了一个搜索引擎的技术服务,然后再向那些网站的拥有者们拍卖他们网站在GoTo 检索结果中的排名,谁付的钱多,谁的网站就排在前面,而且付费是根据网民点击该网站的情况来计算的,仅仅在搜索结果中出现并不需要付费。这就是自信心定律的最早实践者!根据这一定律,搜索结果的相关性排序,除了词频统计和超链分析之外,更注重的是竞价拍卖。谁对自己的网站有信心,谁就排在前面。有信心的表现就是愿意为这个排名付钱。需要声明的是,自信心定律也是我自己给这一模式起的名字,以前的文献中并没有人这样总结过。

今天,在网络业一片萧条,纳斯达克风声鹤唳的时候,GoTo 却如日中天,市值高达13亿美金,收入高达雅虎总收入的35%。反观门户网站,有哪一个能从它们的搜索引擎服务中赚出总收入的三分之一呢?究其原因,就是因为GoTo 最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM 来收费的,而CPM 是从传统广告业借鉴过来的,没有考虑网络媒体即时性、交互性、易竞价的特点,而竞价排名,点击收费则是为网站拥有者直接提供销售线索,而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM 收钱的尴尬局面,开创了真正属于互联网的收费模式。

百度搜索引擎

搜索引擎的三个定律

相关性定律、人气质量定律、自信心定律

1. 第一定律 相关性定律

听起来像是一篇学术论文,的确,就连第一、第二定律的提法以前也没有过,但是第一、第二定律的内容却早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索或信息检索,也有叫全文检索的。

那时的相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面) 。早期的搜索引擎结果排序都是基于第一定律的,如Infoseek ,Excite ,Lycos 等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。

词频统计其实根本没有利用任何跟网络有关的特性。然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,可是按照搜索引擎的第一定律,对这两个网页的排序应该是一样的。为了能够排在某些检索结果的前几位,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言。这种情况到1996年开始有了改变。

2. 第二定律 人气质量定律

1996年4月,我到赌城拉斯维加斯开一个有关信息检索方面的学术会议,会议的内容就像拉斯维加斯的天气一样,照例比较枯燥乏味。但远离公司的我,却难得有一个静下心来认真思考问题的机会。就在听一个毫不相干的论文演讲的时候,我突然把科学引文索引的机制跟Web 上的超级链接联系起来了——感谢北大,她在我上大三的时候就教授了我科学引文索引的机制,美国恐怕没有一所大学会在你本科的时候教这玩艺儿。

科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。再加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析。

我意识到这是一个突破性的东西,回去以后就很快总结了思路,于1996年6月

申请了这一方面的美国专利。1999年 7月6号,美国专利和商标局批准了专利号为5920859的,以我为惟一发明人的专利。大约在1996年底,斯坦福大学计算机系的两位研究生也想到了同样的解决方法,他们后来创立了一个叫Google 的搜索引擎,Google 的网站上至今仍然说他们的这项技术是Patent-pending(专利申请中) ,不知道美国专利局是不是还会再批这样的专利。无论如何, 超链分析的方法1998年以后逐渐被各大搜索引擎所接受,由于链接是网络内容的一个根本特性,这时候的搜索引擎才开始真正利用网络时代的检索技术。

3. 第三定律 自信心定律

人气质量定律解决的还只是一个技术层面的问题,然而搜索引擎从诞生的那一天起,从来就不是一个纯技术现象,它融合了技术、文化、市场等各个层面的因素。解决搜索引擎公司的生存和发展问题需要搜索引擎的第三定律——自信心定律。 1998年的时候,没有太多的人拿一家远在硅谷500英里以外,刚刚成立的,叫作GoTo.com (现已更名为Overture )的公司当回事儿。它不过是买了一个搜索引擎的技术服务,然后再向那些网站的拥有者们拍卖他们网站在GoTo 检索结果中的排名,谁付的钱多,谁的网站就排在前面,而且付费是根据网民点击该网站的情况来计算的,仅仅在搜索结果中出现并不需要付费。这就是自信心定律的最早实践者!根据这一定律,搜索结果的相关性排序,除了词频统计和超链分析之外,更注重的是竞价拍卖。谁对自己的网站有信心,谁就排在前面。有信心的表现就是愿意为这个排名付钱。需要声明的是,自信心定律也是我自己给这一模式起的名字,以前的文献中并没有人这样总结过。

今天,在网络业一片萧条,纳斯达克风声鹤唳的时候,GoTo 却如日中天,市值高达13亿美金,收入高达雅虎总收入的35%。反观门户网站,有哪一个能从它们的搜索引擎服务中赚出总收入的三分之一呢?究其原因,就是因为GoTo 最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM 来收费的,而CPM 是从传统广告业借鉴过来的,没有考虑网络媒体即时性、交互性、易竞价的特点,而竞价排名,点击收费则是为网站拥有者直接提供销售线索,而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM 收钱的尴尬局面,开创了真正属于互联网的收费模式。

百度搜索引擎


相关文章

  • 我国电子商务市场的垄断性分析
  • 中图分类号:F713 文献标识码:A 内容摘要:从"3Q大战"到淘宝商城新规事件,垄断已经成为互联网及电子商务领域的热点问题.本文首先分析电子商务市场呈现垄断性的原因,然后选取我国电子商务市场中的B2B.B2C.C2C. ...查看


  • 搜索引擎分类
  • 搜索引擎分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine).目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine). ...查看


  • 大数据与文化变革(2016)
  • 2016年8月大数据与文化变革 一. 单选题(本题总分50.0分, 本大题包括25小题, 每题2分, 总计50.0分) 1.(本题分值:2)本讲中提到,到目前为止,美国政府已开放了()万个数据集,超过40个州及地方政府建立了独立的数据门户开 ...查看


  • 李彦宏语录
  • 1-李彦宏语录 做自己喜欢做的事情;做自己擅长做的事情!--李彦宏 2-李彦宏语录 "百度精神里有一种叫做勇气,而我的妻子马东敏博士,则是这勇气 的来源. 她总能在关键时刻, 冷静地提出最勇敢的建议. 而事实证明, 她的那些充满东 ...查看


  • 论网络时代领导力的变革
  • 作者:周敏 中国行政管理 2012年02期 [中图分类号]C965 [文献标识码]A [文章编号]1006-0863(2011)010-0082-04 一.领导力变革和网络环境之间的关系 网络作为技术的概念,专指的是现代信息网络,是计算机与 ...查看


  • 聚美优品经营模式分析
  • 聚美优品经营模式分析 随着B2C 市场的逐步成熟,B2C 领域将进入用户细分的市场阶段.近年来,越来越多的厂商进入垂直细分线上B2C 市场,消费者可选择的商品品类更加丰富.聚美优品作为中国第一批从事化妆品垂直型专业网站,借团购之力逐步发展成 ...查看


  • 名言:有关于自信的名人经典语录
  • 最新名言:有关于自信的名人经典语录 以下是杂文轩为整理收集的最新名言:有关于自信的名人经典语录的文章,希望大家能够喜欢! 这里介绍一篇名言:有关于自信的名人经典语录.感兴趣的小伙伴一起来看看吧. 什么是自信,自信是一个心理学名词.自信心是日 ...查看


  • 物联网导论
  • 物联网导论回顾提纲 1.什么是物联网? 物联网The internet of things是一个基于互联网.传统电信网等信息载体,让所有能被独立寻址的普通物理对象实现互联互通的网络. 2.物联网的两层含义 第一,物联网与计算机网络有关,物联 ...查看


  • 第一章 网络能为我们做什么第三课 因特网信息资料检索原理
  • 第二课时       信息检索工具的工作原理 教学目标: 了解因特网信息检索工具的工作原理,进一步提高搜索技能,熟练地使用检索工具获取所需信息. 教学内容: 1.介绍全文搜索和目录搜索引擎的工作原理 2.资源搜索的定律及策略 教学重点.难点 ...查看


热门内容