蜘蛛准确的抓取网站内容的技巧

作者：协策网络-客服部标签：网站建设网站优化日期：2011年11月10日类别：网站优化

1，使用Flash

　　Google几年前就开始尝试抓取Flash内容了，简单文字性内容已经能抓取。Flash里面的链接也能被跟踪。

　　2，表格

　　Google蜘蛛也能填表，也能抓取POST请求页面。这个早就能从日志中看到。

　　3，JS/Ajax

　　使用JS链接一直以来被当作不搜索引擎友好的方法，因此可以阻止蜘蛛爬行，但两三年前我就看到JS链接不能阻止Google蜘蛛抓取，不仅JS中出现的URL会被爬，简单的JS还能被执行找到更多URL。

　　前几天有人发现很多网站使用的Facebook评论插件里的评论被爬、被收录，插件本身是个AJAX。这是个好消息。上海网站制作的一个实验电子商务网站产品评论功能就因为这个费了不少心思，用Facebook comments插件好处大大的，具体什么好处以后有时间再说，唯一的问题就是评论是AJAX实现的，不能被抓取，而产品评论被收录是目的之一(产生原创内容)。我当时想了半天也没有解决方法，只好先傻傻地既放上Facebook comments插件又打开购物车本身的评论功能。现在好了，Facebook comments里的评论能被收录，就不用两套评论功能了。

　　4，Robots文件

　　目前唯一确保内容不被收录的方法是robots文件禁止。但也有个坏处，会流失权重，虽然内容是不能收录了，但页面成了只接受链接权重、不流出权重的无底洞。

　　5，Nofollow

　　Nofollow并不能保证不被收录。就算自己网站所有指向页面的链接都加了NF，也不能保证别人网站不给这个页面弄个链接，搜索引擎还是能发现这个页面。

本文"蜘蛛准确的抓取网站内容的技巧"网址：http://www.580plan.com/info/wangzhanyouhua/2141.html

您可能感兴趣的文章推荐

上一篇：探讨SEO优化失败原因

下一篇：关于pr方面的见解

协策网络公司拥有专业的网站建设开发团队，超过四年以上的网站建设、网页制作经验，我们可承接企业电子商务网站建设、企业展示型网页设计和功能型网站制作等各类型网站设计制作。

地址：上海市共和新路425号凯鹏国际大厦13楼G座（近3、4、8号线）

电话：021-51085186 传真：021-56555059 咨询：+(86)18018609689

此页面上的内容需要较新版本的 Adobe Flash Player。

此页面上的内容需要较新版本的 Adobe Flash Player。

蜘蛛准确的抓取网站内容的技巧