由于搜索引擎不可能一次性抓取网站中的所有页面,而且网站中的页面数量也不会不断的变化,内容也在不断的更新。因此,搜索引擎还需要对已抓取的页面进行维护,一边能及时获取页面中最新的信息及抓取更多的新页面。常见的页面维护方式包括:定期抓取、增量抓取及分类定位抓取。
1.定期抓取
定期抓取也称周期性抓取,即搜索引擎周期性对网站中已收录的页面进行全面的更新。更新时,用抓取到的新页面替换原来的旧页面删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部移交收录的页面,一次更新周期比较长。例如google一般要30~60天才更新一次已经收录的页面。
定期抓取算法的实现相对简单。由于每次更新涉及网站中已经收录的页面,一次页面权重的再分配也是同步进行的。这种方式适用于维护页面较少、内容更新缓慢的网站。但是由于更新周期十分漫长,这就导致不能及时向用户反映更新期间页面的变化情况。
2.增量抓取
增量抓取是通过对已抓取页面进行定时监控,实现对页面的更新及维护。但是对网站中的每个页面进行定时监控的做法是不显示的。基于重要页面携带重要内容的信息,因此增量抓取是针对某些重要页面,对非所有已收录的页面,也就是为什么搜索引擎的更新周期更短的原因。
由于增量抓取是在原有页面的基础上进行的,因此会大大增减搜索引擎的抓取时间,而且还可以及时向用户展示页面中的最新内容。
3.分类定位抓取
与增量抓取重要性决定不同,分类定位抓取是指根据网页的类别或性质而制定相应更新周期的页面监控方式。例如,对于新闻资讯和资源下载两类页面,新闻资讯类页面的更新周期可以精确的每分钟,而下载页面更新周期可以定位天或者更长。
分类定位抓取对不同类别的恶意面进行分开处理,这样可以节省大量的抓取时间,并大大提高了页面内容的实时性,也增加了页面的抓取灵活性。但是按照类别而制定页面更新周期方式比较笼统,很难跟踪页面的最新情况。因为即使是相同类别的页面,在不同网站上内容的更新时间也会存在很大的差别。
实际上,搜索引擎对网站中的页面维护也是结合多种方式进行的,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减少搜索引擎的负担,又可以为用户提供及时的信息。
如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛