SEO搜索引擎的工作原理

  搜索引擎的工作原理

  (1)搜索引擎的组成

  从技术角度说,搜索引擎基本由三部分组成:第一部分是蜘蛛软件(Spider),即自动的收集程序,它的作用是负责收集网页的内容;第二部分是索引器(Indexer),其作用是将收集回来的内容进行分析,然后做一个索引;第三部分是搜索器( Searcher),即响应用户的检索请求。蘑菇街首页www/zmeigou/com当用户输入关键字后,搜索器用这个关键字与建立的索引器匹配,匹配后做相关性排序,再将排序结果送给用户。

  (2)搜索引擎的工作过程

  通常,搜索引擎通过某种界面(例如动态网页)跟用户交互,接受用户查询特定信息的请求,然后对用户查询请求进行分析,比如将查询请求分解成若干关键字,在分析用户请求之后,在索引数据库中不断进行匹配,挑出符合条件的信息,同时按照匹配程度的高低对结果进行排序,最后将排序后的结果返回给用户。因为网络信息时刻变动,所以搜索引擎在后台通过蜘蛛程序漫游互联网,收集网络信息,自动对收集到的信息进行分析,并按照一定的格式,将收集到的信息保存到本地索引数据库中。

  因此,搜索引擎要完成搜索任务必须完成三方面的工作:建立索引数据库,分析、匹配用户的查询,处理并给出查询结果。

  ①建立索引数据库。建立索引数据库要用到蜘蛛程序。初始化时,蜘蛛程序一般指向一个URL池(用于存储互联网上网站地址,大小与搜索引擎可以搜索的范围有关)。在遍历互联网的过程中,按照深度优先、广度优先或其他算法,从URL池中取出若干URL进行处理,同时将来访问的URL放入URL池中,这样处理直到URL池空为止。对Web文档的索引,根据文档的标题、首段落甚至整个页面内容进行,这取决于搜索服务的数据收集策略。蜘蛛程序在漫游的过程中,根据页面的标题、头、链接等生成摘要放在索引数据库中。如果是全文搜索,还需要将整个页面的内容保存到本地数据库,例如google的网页快照功能。

  ②处理信息。对于搜索到的信息需要经过信息预处理、信息索引等几个阶段进行处理。

  a.信息预处理。信息预处理包括信息格式转换和过滤两个不同层次。信关作为访问不同信息的机构,能够访问不同组织形式的数据信息,如各种数据库、不同文件系统以及网络Web页面等。同时,信息预处理也能够过滤不同格式的文档。如Microsoft Word,WPS、Text和HTMI,等。这使得搜索引擎不仅能够检索正文文档,而且能够检索原始格式的文档信息。

  b信息索引。信息索引就是创建文档信息的特征记录,蘑菇街首页www/zmeigou/com它使用户能

很容易地检索到所需信息。建立索引需要进行下列处理。

  ·信息语词切分和语词词法分析

  语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符(空格),圈此需要进行语词切分。汉语语词切分中存在切分歧义,如句子“研究所有问题”可切分为“研究/所有/问题”,也可切分为“研究所/有问题”。因而需要利用各种上下文知识解决语词切分歧义。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。

  ·进行词性标注及相关的自然语言处理

  在切分的基础上,利用基于规则和统计(马尔科夫链)的方法进行词性标注。基于马尔科夫链的n元语法统计分析方法,被证明在词性标注中能达到较高的精度。在此基础上,还要利用各种语法规则,识别出重要的短语结构。

  ·建立检索项索引

  一般使用倒排文件的方式建立检索项相关信息。相关信息一般包括“检索项”(表中TERM)、“检索项所在文件位置信息”(表中DOC)以及“检索项权重”(表中WT)。例如,检索项“计算机”的位置信息为“文档D中第n段第m句第w词”。这样,在信息检索时,用户可以要求在查询中,检索项T1和检索项T2位于同一语句或同一段落中。检索项索引的建立准则是要易于文档信息的更新处理。

  ③进行查询扩展处理。信息检索评价的标准是信息检索的查全率与查准率。查全率与查准率的概念会在下一节介绍。

  为了提高查全率,需要进行查询扩展处理。这种处理根据同义词词典和语义蕴涵词典扩展查询检索项。同义词扩展,如“计算机”和“电脑”指同一概念;因而查询“计算机”同时也要查询

  “电脑”,反之亦然。主题蕴涵扩展是指不但要查询检索词,而且还要查询其中所包古的子概念。比如,主题词“艺术”包括“电影”、“舞蹈”、“绘画”等。“电影”又包括“故事片”、“记录片”等。蘑菇街首页www/zmeigou/com因此,查询“艺术”当然包括“电影”、“舞蹈”、“绘画”以及其下的子概念。

  提高信息检索的查准率,可利用向量空间模型实行相关查询反馈处理。即用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查询精度。

  ④进行信息分类和摘要。为了方便用户从查询结果中选择所需信息,搜索引擎可将提供给用户的文档信息按照文档内容进行分类,并为每一篇文档产生简短摘要。

  搜索引擎根据文本检索项的统计特征,对查询结果进行分类和摘要。例如,用户查询

检索项“计算机”,相应的结果分类也许为分类1:网络、系统、路由器等;分类2:市场、产品、销售等;还可能有其他分类。分类的目的是便于用户找到相关信息。

  ⑤显示查询结果。搜索引擎根据用户的查询要求,从数据库中检索出与之相关的信息资料,并显示在浏览器上。

  搜索引擎的工作原理

  (1)搜索引擎的组成

  从技术角度说,搜索引擎基本由三部分组成:第一部分是蜘蛛软件(Spider),即自动的收集程序,它的作用是负责收集网页的内容;第二部分是索引器(Indexer),其作用是将收集回来的内容进行分析,然后做一个索引;第三部分是搜索器( Searcher),即响应用户的检索请求。蘑菇街首页www/zmeigou/com当用户输入关键字后,搜索器用这个关键字与建立的索引器匹配,匹配后做相关性排序,再将排序结果送给用户。

  (2)搜索引擎的工作过程

  通常,搜索引擎通过某种界面(例如动态网页)跟用户交互,接受用户查询特定信息的请求,然后对用户查询请求进行分析,比如将查询请求分解成若干关键字,在分析用户请求之后,在索引数据库中不断进行匹配,挑出符合条件的信息,同时按照匹配程度的高低对结果进行排序,最后将排序后的结果返回给用户。因为网络信息时刻变动,所以搜索引擎在后台通过蜘蛛程序漫游互联网,收集网络信息,自动对收集到的信息进行分析,并按照一定的格式,将收集到的信息保存到本地索引数据库中。

  因此,搜索引擎要完成搜索任务必须完成三方面的工作:建立索引数据库,分析、匹配用户的查询,处理并给出查询结果。

  ①建立索引数据库。建立索引数据库要用到蜘蛛程序。初始化时,蜘蛛程序一般指向一个URL池(用于存储互联网上网站地址,大小与搜索引擎可以搜索的范围有关)。在遍历互联网的过程中,按照深度优先、广度优先或其他算法,从URL池中取出若干URL进行处理,同时将来访问的URL放入URL池中,这样处理直到URL池空为止。对Web文档的索引,根据文档的标题、首段落甚至整个页面内容进行,这取决于搜索服务的数据收集策略。蜘蛛程序在漫游的过程中,根据页面的标题、头、链接等生成摘要放在索引数据库中。如果是全文搜索,还需要将整个页面的内容保存到本地数据库,例如google的网页快照功能。

  ②处理信息。对于搜索到的信息需要经过信息预处理、信息索引等几个阶段进行处理。

  a.信息预处理。信息预处理包括信息格式转换和过滤两个不同层次。信关作为访问不同信息的机构,能够访问不同组织形式的数据信息,如各种数据库、不同文件系统以及网络Web页面等。同时,信息预处理也能够过滤不同格式的文档。如Microsoft Word,WPS、Text和HTMI,等。这使得搜索引擎不仅能够检索正文文档,而且能够检索原始格式的文档信息。

  b信息索引。信息索引就是创建文档信息的特征记录,蘑菇街首页www/zmeigou/com它使用户能

很容易地检索到所需信息。建立索引需要进行下列处理。

  ·信息语词切分和语词词法分析

  语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符(空格),圈此需要进行语词切分。汉语语词切分中存在切分歧义,如句子“研究所有问题”可切分为“研究/所有/问题”,也可切分为“研究所/有问题”。因而需要利用各种上下文知识解决语词切分歧义。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。

  ·进行词性标注及相关的自然语言处理

  在切分的基础上,利用基于规则和统计(马尔科夫链)的方法进行词性标注。基于马尔科夫链的n元语法统计分析方法,被证明在词性标注中能达到较高的精度。在此基础上,还要利用各种语法规则,识别出重要的短语结构。

  ·建立检索项索引

  一般使用倒排文件的方式建立检索项相关信息。相关信息一般包括“检索项”(表中TERM)、“检索项所在文件位置信息”(表中DOC)以及“检索项权重”(表中WT)。例如,检索项“计算机”的位置信息为“文档D中第n段第m句第w词”。这样,在信息检索时,用户可以要求在查询中,检索项T1和检索项T2位于同一语句或同一段落中。检索项索引的建立准则是要易于文档信息的更新处理。

  ③进行查询扩展处理。信息检索评价的标准是信息检索的查全率与查准率。查全率与查准率的概念会在下一节介绍。

  为了提高查全率,需要进行查询扩展处理。这种处理根据同义词词典和语义蕴涵词典扩展查询检索项。同义词扩展,如“计算机”和“电脑”指同一概念;因而查询“计算机”同时也要查询

  “电脑”,反之亦然。主题蕴涵扩展是指不但要查询检索词,而且还要查询其中所包古的子概念。比如,主题词“艺术”包括“电影”、“舞蹈”、“绘画”等。“电影”又包括“故事片”、“记录片”等。蘑菇街首页www/zmeigou/com因此,查询“艺术”当然包括“电影”、“舞蹈”、“绘画”以及其下的子概念。

  提高信息检索的查准率,可利用向量空间模型实行相关查询反馈处理。即用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查询精度。

  ④进行信息分类和摘要。为了方便用户从查询结果中选择所需信息,搜索引擎可将提供给用户的文档信息按照文档内容进行分类,并为每一篇文档产生简短摘要。

  搜索引擎根据文本检索项的统计特征,对查询结果进行分类和摘要。例如,用户查询

检索项“计算机”,相应的结果分类也许为分类1:网络、系统、路由器等;分类2:市场、产品、销售等;还可能有其他分类。分类的目的是便于用户找到相关信息。

  ⑤显示查询结果。搜索引擎根据用户的查询要求,从数据库中检索出与之相关的信息资料,并显示在浏览器上。


相关文章

  • SEO文章中的关键词密度的标准
  • 熟悉或者经常逛SEO论坛的同学肯定接触到关键词密度这个概念.关于关键词密度 这个东西又有很多迷思,什么3%-8%密度这个概念.然后网站突然被K或者降权就 开始怀疑是不是关键词浓度太高,关键词密度太大被搜索引擎认为作弊了?每个 站长在对待关键 ...查看


  • 搜索引擎营销的3种方式
  • 搜索引擎营销的3种方式 互联网走到今天,已经进入了Web 2.0时代,它已经影响到了我们生活的各个方面,人与互联网之间的联系越来越紧密,其中搜索引擎扮演着一个重要的角色.人们通过互联网搜索引擎寻找自己需要的信息,搜索引擎已经成为人们最常用的 ...查看


  • seo电子书
  • 用网络网住机会:Seo搜索引擎排名秘笈 中小网站,80%-90%甚至以上的流量来自搜索引擎,我们的客户正在找我们!! 当客户通过搜索引擎寻找我们的时候,如何抓住机会?! 提高自己在Google.百度中的排名,让正在寻找我们的客户找到我们,用 ...查看


  • 搜索引擎原理的重要性
  • 搜索擎引理的原重性要 们做我SEO的效体验果提高是关键词排名,提转高率化但这,切一前提的便懂得是索引擎原搜理,那今么我天便来们研究下索搜引. 擎 一搜:引擎索四曲步 在说搜 索擎之引,首前先说一明问个题互联,网一是个海,洋而单不我指在搜索引 ...查看


  • 集团公司SEO方案
  • 我们对您的承诺 " 一诺千金 "河南汉威电子股份 有限公司SEO 优化方案河南一诺钢铁物流网 2009.4 2009.4我们对您的承诺 " 一诺千金 "目录一.前二言我们对您的承诺 " 一诺 ...查看


  • 组建一个SEO优化团队需要哪些人员配置?
  • 目前自媒体平台是越来越多,也越来越壮大.当然了,做自媒体的朋友也是越来越多,所以平台的要求和制度也是越来越高和完善.就拿学技巧我本人来说,seo我都快忘记长啥样了,虽然每天的工作也是属于营销行为.但是seo是必须要重视的,也是一个企业长远发 ...查看


  • xx网络负面信息处理的方法策略
  • 网络负面信息处理的方法策略 四.负面压制一般处理操作流程: 1. 分析负面信息的平台和SEO 数据2. 准备十多篇围绕目标关键词的原创内容素材3. 根据要求选取合适的第三方平台4. 在选取的第三方平台发布原创信息5. 查询跟进压制效果6. ...查看


  • SEO营销推广团队如何建立
  • SEO 营销推广团队如何建立 前言:我们做SEO 的,如果没有团队的话,基本上做出的效果不会太大,一个人做SEO 一般是负责企业网站的优化,要写文章,要做外链,要分析排名情况,要写SEO 优化方案,要维护运营好前台,还有很多事情要做,基本上 ...查看


  • 9年从业经验分享:SEO职业几个关键的瓶颈
  • 昨天与某集团的副总与部门总监沟通了一些关于SEO发展与瓶颈的问题,有很多感触,今天整理出来分享给大家.其实关于SEO瓶颈这个话题已经不是一年两年了,很多新人老人越来越困惑,9年历程一路风雨走来,希望能给大家一些启迪. 首先SEO这个职业发展 ...查看


热门内容