狭义的镜像网站是指内容完全相同的网站,形成镜像网站主要有两种情况:第一种是多个域名或lP指向同一服务器的同一个物理目录;另一种是整个网站内容被复制到使用不同域名或者IP的服务器上。
为了识别站点是否互为镜像网站,搜索引擎首先判断这些网站的首页以及与首页直接链接的页面是否互为镜像页面。如果是,则互为镜像网站。然后,再综合多项因素(如网站权重值、建立时间等)识别哪个是源网站,哪个是镜像网站。这样,以后抓取页面就集中在源9网站中进行,这也是为什么搜索引擎对于镜像网站只收录极少页面,甚至不收录页面的原因。
由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面的数量也会不断地变化,内容也在不断地更新。因此,搜索引擎还需要对已抓取的页面进行维护,以便能及时获取页面中最新的信息及抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓取及分类定位抓取。
定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已收录的页面进行全面更新a更衙时,用抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部已收录的页面,因此更新周期会比较长。例如,Google-般是30-60天才会对已收录的页面进行更新。