协策网络,专业做网站,优秀上海网站制作公司,提供企业建站、网站设计、网页制作,专业网页设计师和网站制作技术工程师为您量身打造个性企业电子商务网站。

此页面上的内容需要较新版本的 Adobe Flash Player。

获取 Adobe Flash Player

  文章汇总 Article Summary
当前位置:协策网络 >> 文章中心 >> 网站优化 >> 浏览文章
 

百度快照抓取网站的原理及问题

作者:协策网络-客服部    标签:网站建设 seo     日期:2013年04月03日    类别:网站优化

 

网站在搜索引擎里的具体表现是每个SEO都非常关注的问题,SEO工程师经常根据快照来分析网站的状态,针对快照的更新情况来做调整,以便更好地优化或者提升网站的综合指标。快照,在搜索引擎中的应用中为分析网站提供了有利的条件因素。

 

我们拿百度来举个例子,其他搜索引擎的原理都大同小异。百度快照的定义参见百度搜索帮助:每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。而官方给百度快照赋予的功能就是,在查询结果中将要打开的网页无法打开或者载入速度很慢的时候,“百度快照”可以快速浏览页面内容。

 

百度快照的原理,百度搜索引擎内部搜索程序对网络上的数据进行组织处理的过程,对文件数据会进行索引存储的具体体现就是百度快照。通俗来讲,百度获取数据的过程就是分发出百度蜘蛛,在整个互联网通过彼此的链接互通情况下获取数据;而百度快照是在百度蜘蛛通过某一链接到达新的网站或单个页面时,对这个网站首页或者单个页面的数据存储;百度内部机制会根据具体的算法,对数据进行归类索引缓存,用户检索时,百度在通过提取数据库服务器中索引的缓存数据,就看到了的快照。

 

我们经常会发现百度快照有时候更新,有时候却又很久都不变,那百度快照到底有什么几率呢,其实这一切都在服务器日志中可以看到。

 

很多站长在抱怨百度快照一直停留在16、23、24这样的时间每个月更新一次,有的甚至半年没更新;

 

快照也是一个搜索引擎的附加程序作为搜索引擎的一环,所有的程序都要求是处理最优结果,节省运算时间为前提处理数据

 

 

所以百度对于每个网站都有一个快照更新的评级,在百度这个现象很明显,当然对主页和内页的评级也是不同的这个不多赘述

他评级的标准就是按 几次蜘蛛抓取的数据分析,数据大幅度更新(比较一组数据,更新量大到一个值的时候)

 

举个很概念的例子:百度标准数据更新值如果是7,你页面蜘蛛抓取第一次和第二次做对比 更新值是3不达标,第三次抓取跟第一次对比数据更新是8了,OK截取第一次和第三次之间的时间间隔。

 

 

当然这个是很笼统的说法,百度要进行几次对比后取个均衡量做评判,这个就不是我们能知道的,但是这样的一个算法的原理我们知道了

这样的做法就是可以让快照程序有针对性的去更新网站的快照,而不是所有网站不分类别一起更新,这样对运算的时间和成本节省不少

 

知道有这么个评级之后所有的事情都好办了,这个评级百度没有公开,目前

 

也不知道百度对一个网站重新评估 更新 评级的间隔是多少时间

 

但是SEO要做的事情如果是让更新快照的频率更高的话其实很简单

既然我们知道原理了,我们就有针对的操作方法

 

第一步 查看你的服务器日志,了解一下百度蜘蛛对于你的网站页面抓取的规律

 

第二步 知道蜘蛛对一个页面抓取的时间间隔之后,列出一个内容更新时间表

 

 

第三步 在每相邻两次次蜘蛛抓取间隔中更新你的页面内容,集中在这个时间段内更新(举例:比如你本来更新内容是10小时,但是这10小时中蜘蛛已经来过三次了那么你就要想办法把这10小时的量更新在一次间隔中尽量压缩-以上举的时间只是个例子具体看网站具体情况)能够频繁的更新是最好的了

百度快照的常见问题:
 

 

一、快照不更新

 

 

问题分析:导入链接扇入面积不大,也就是网站的外部链接过少;网站长时间不更新或更新没有规律;对网站进行改版或空间不稳定。

 

 

解决办法:通过对百度快照定义原理的理解,百度只有通过链接抓取、索引本站数据建立快照的,为百度蜘蛛营造更顺畅的多条通路到达网站就是最好的解决办法。

 

 

二、快照更新不及时

 

 

问题分析:和快照不更新问题一样,但在这里说明的原因是百度的审核机制,会对网站数据过滤,甚至人工审核,不排除此情况导致的原因。

 

 

解决办法:同快照不更新,同时网站内部不要出现我国特色的河蟹内容。

 

 

三、首页快照回档

 

 

问题分析:对网站进行改版或者空间不稳定;网站本身或者链接网站被K。

 

 

解决办法:不要经常对网站主题或者各项设置参数进行变动,尽量选择稳定快速的空间服务商,网站不要频繁使用非常规推广手段,网站内容尽量原创实时更新,不要大面积进行采集。

 

四、删除快照

 

解决办法:http://www.baidu.com/search/web_tousu.html#网页快照处理

 

P.S. 百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容,会无法显示。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。

 

通过百度快照的观测,可以确保网站正常的收录排名,给站长和优化推广人员一项参考指标。在实际操作过程中,不乏出现相关的其他问题,本文不再详细讲解,但是都可以围绕搜索引擎运作的原理来寻找根本的原因和解决的办法。



更多
  您可能感兴趣的文章推荐  
 
上一篇:凡事从用户角度考虑,必定赢得用户 下一篇:上海seo为何原创的网站也被拉入百度沙盒?
协策网络公司拥有专业的网站建设开发团队,超过四年以上的网站建设、网页制作经验,我们可承接企业电子商务网站建设、企业展示型网页设计和功能型网站制作等各类型网站设计制作。
     
首 页  |  基础服务  |  网站建设  |  网站优化  |  成功案例  |  协策博客  |  关于我们  |  联系我们
COPYRIGHT © 上海协策网络科技有限公司 2008-2014 网站地图 SITEMAP 上海做网站公司 沪ICP备08009778号

地址:上海市共和新路425号凯鹏国际大厦13楼G座(近3、4、8号线)

电话:021-51085186 传真:021-56555059 咨询:+(86)18018609689
上海做网站建设网页设计制作公司