您现在的位置: 365建站网 > 365文章 > 2.1 搜索引擎工作原理

2.1 搜索引擎工作原理

文章来源:365jz.com     点击数:1020    更新时间:2009-07-14 10:28   参与评论
搜索引擎模块组成

一个典型的网络信息检索系统的系统架构由信息收集、信息处理和查询服务三个模块组成。

从具体运行方式上说,系统根据站点/网页的URL信息和网页之间的链接关系,利用网络蜘蛛在互联网上收集数据;收集的数据分别通过链接信息分析器和文本信息分析器处理,保存在链接数据库和文本索引数据库中,同时,网页质量评估器依据网页的链接关系和页面结构特征对页面质量进行评估,并将评估的结果保存在索引数据库中;查询服务器负责与用户的交互,它根据用户的检索需求,从索引数据库中读取对应的索引,并综合考虑查询相关性与页面质量评估结果之间的关系,给出查询结果列表反馈给用户。

搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都与搜索引擎存在必然的联系,研究搜索引擎优化实际上是对搜索引擎工作过程的逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始.

搜索引擎的主要工作包括:页面收录,页面分析,页面排序及关键字查询。

1.页面收录

页面收录指搜索引擎通过蜘蛛程序在互联网上抓取页面进行储存的过程,它为搜索引擎开展各项工作提供了数据支持。

2.页面分析

页面分析首先是对原始页面建立索引,实现对页面的快速定位;然后,提取页面的正文信息,并对正文信息进行切词及为这些词(即关键字)建立索引,从而得到页面与关键字的对应关系;最后,对关键字进行重组,并建立关键字与网页相对应的反向索引列表,从而能够根据关键字快速定位至相应网页.

3.页面排序

搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排度列表。

4.关键字查询

搜索引擎接收来自用户的查询请求,并对查询信息进行切词及匹配后,再向用户返回相应的页面排序列表。

页面收录流程

在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过URL列表出发,通过URL抓取并存储原始页面;同时,提取院士页面中的URL资源并加入到URL列表中。如此不断地循环,就可以从互联网中获取足够多的页面。

URL是页面的入口,而域名则是网站的入口。搜索引擎蜘蛛车程序通过域名进入网站,从而展开对网站的抓取。换而言之,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表,再通过域名进入相应的网站,从而抓取网站中的页面。

而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。下面介绍两种常用的加入搜索引擎域名列表的方法。

第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站域名,例如google的网站登陆地址是,可在此提交自己的网站域名。对于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较被动,从域名提交到网站被收录花费的时间比较长。

第二,通过与外部网站建立连接关系,使搜索引擎可以通过外部网站发现我们的网站,从而实现对网站的收录。这种做法的主动权掌握在我们自己的手里(只要我们拥有足够多高质量的连接即可),且收录速度也比向搜索引擎主动提交要快得多。根据外部连接的数量、质量及相关性,一般情况下,2-7天左右就会被搜索引擎收录。

页面收录原理

  我们可以把网站的组成看成一个集合,蜘蛛从指定的页面出发,沿着页面的链接,按照特定的方法对网站页面进行遍历,不停的从URL列表中移除已经访问的URL,并存储原始页面,同时提取原始页面的URL信息;再将URL分为域名及内部URL两大类,且进行判断URL是否访问过,将未访问过的网站URL加入到URL列表中,递归扫描URL列表,知道把URL地址扫面完为止

页面的收录方式

      在互联网数亿计的页面中,搜索引擎怎样才能从中抓取到相对重要的页面呢?这就涉及搜索引擎页面收录的方式。

      页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出相对重要的信息。页面收录方式的制定取决于搜索引擎对网站的结构理解。

      如果使用相同的抓取策略,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留更长的时间,

      收录的页面数自然也就增多了。因此,加深对搜索引擎页面的收录的认识,有利于为网站建立更好的结构,提高页面被收录的数量。

      搜索引擎收录页面的方式分为广度优先,深度优先,和用户提交,这三种的页面收录方式

     1.广度优先,广度优先是一个横向的抓取方式,先从较浅层抓取,抓取完同层次的所有页面后在进入下一页面。

     2.深度优先,和广度优先相反,深度优先是跟踪浅层页面中的某一连接逐步抓取深层页面,直至抓取完最深层的页面后返回浅层页面再跟踪其另一连接,继续向深层页面抓取,这是一种纵向页面抓取方式。

     3.用户提交,为了抓取更多的页面,搜索引擎还准许网站管理员主动提交页面。网站管理员只需要把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎即可通过该文件对网站中的页面进行抓取及更新。

教你如何在避免内容的重复性收录


在互联网中,内容重复的是无法避免的。然而。搜索引擎是怎么去识别重复的信息的呢?如何去辨别到底哪些是网页的信息原创的,哪些是复制的,又会认为哪些内容有价值的,哪些又是可以舍舍弃的?我来给大家说下答案!

在网站中,重复的信息主要包括转载内容以及镜象内容2大类别,搜索引擎在对页面进行分析的时候必须具备识别重复信息的能力,因为,大量的重复信息不但占用巨大的服务器硬盘空间,而且还会增加用户寻找信息的时间,影响用户的体验度,但这并不意味着重复信息的没有价值,搜索引擎认为转载的内容不如原创内容重要,赋予原创性内容更高的权重,而镜象内容几乎完全被忽略!

转载页面:
转载页面是指那些与原创页面内容相同或者相近的页面,然而搜索引擎是如何识别转载页面的呢?首先是把正文内容分为N个区域,如果有M个区域(M是搜索引擎指定的是值)是相同或者是相似的,那么搜索引擎认为这些页面就是互相转载的页面。
在确定页面互相转载的关系后,接下来,搜索引擎在结合页面最后的修改时间,页面权重等因素来判断是原创页面还是转载页面。

镜像页面:
内容完全相同的页面叫镜象页面,要判断页面是否是镜象页面,搜索引擎首先把这些页面分成N个区域来来进行比较,如果这N个区域的内容完全都一样,则认为这些页面为镜象页面。然后,在综合多种因素(如页面的权重值,页面的最后修改时间)来识别哪个是镜象页面,哪个是原页面。

如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛

发表评论 (1020人查看0条评论)
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
昵称:
最新评论
------分隔线----------------------------

快速入口

· 365软件
· 杰创官网
· 建站工具
· 网站大全

其它栏目

· 建站教程
· 365学习

业务咨询

· 技术支持
· 服务时间:9:00-18:00
365建站网二维码

Powered by 365建站网 RSS地图 HTML地图

copyright © 2013-2024 版权所有 鄂ICP备17013400号