蜘蛛往哪爬?作者:zhangting 标签:移动网站建设 日期:2014年07月16日 类别:网站优化 |
||||
一:什么是蜘蛛Spider?
我们先来看一下百度百科上是怎么说的:蜘蛛Spider是搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
PS:简单说就是一款抓取互联网信息的程序。
二:蜘蛛Spider的分类
1.批量型Spider:有明显的抓取范围和目标,有抓取时间、数据量或固定在范围内页面限制的抓取程序,一般我们使用的采集工具就是这类Spider。
2.增量型Spider:没有固定目标、范围和时间限制,永无休止地进行抓取,直至把全网的数据抓完为止。目前常见搜索引擎(百度/google等)的Spider都是这类Spider。
3.垂直型Spider:跟增量型Spider相似,但抓取范围有针对性(如:特定主题、特定内容或特定行业的网页)地抓取。这类Spider一般用于垂直搜索引擎。
三:蜘蛛Spider的抓取策略
1.深度优先策略:即一直沿着一条路往下走,走到没路了,再回过头来走另外一条路,如此类推.
2.广度优先策略:Spider在一个页面上发现多个连接时,先把这些页面抓一遍,然后再抓从这些页面中提取下来的链接
此外还有“重要页面优先抓取策略”、“大站优先策略”、“再次抓取更新策略”在这就不一一说明了,有兴趣的朋友可以在网上查看相关资料。
四:Spider和普通用户的区别
最后跟大家讲解一下Spider和普通用户浏览一个网站时的区别,因为这块网络上存在很多说法,有些存在一些误区。目前一些大型搜索引擎(百度、谷歌等)都表示Spider对网站的抓取行为和普通用户的访问没太大区别。但问题真的区别不大吗?
用户能看到而Spider不一定能看到的:如:图片中的信息、视频中的内容、FLASH、登陆、注册、回复可见内容等。Spider能看到而用户不一定能看到的:是否有隐藏内容、是否挂黑链等。可见,某种程度上来讲用户与Spider各自所获取到的信息还是有区别的。
您可能感兴趣的文章推荐 |
||||
|