定期抓取算法的实现相对简单。由于每次更新涉及网站中所有已收录的页面,因此页面权重的再分配也是同步进行的。这种方式适用于维护页面较少、内容更新缓慢的网站。但是,由于更新周期十分漫长,这就导致不能及时向用户反映更新期间页面的变化情况。例如,某个页面内容更新后,需要30-60天才能在Google上有所体现。
增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。但是,对网站中的每个页面都进行定时监控的做法是不现实的。基于重要页面携带重要内容的思想以及80/20法则①,搜索引擎只需对网站中部分重要页面进行定时监控,即可获取网站中相对重要的信息。因此,增量抓取只针对某些重要页面,而非所有已收录的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而可以及时发现新内容、新链接,并删除不存在的信息。
由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索引擎的抓取时间,而且还可以及时向用户展示页面中最新的内容。