尊敬的客户,您好!我们是北京一家专注互联网技术服务公司,可以提供收录效果好,文章排名好的网站进行发文,发得多,各种关键词排名就多,流量越多越稳定,如果您有需要欢迎您前来资讯!可以随意添加图文和视频广告,助您的企业或者项目服务实现推广效果!如需合作欢迎请加微信
我的网站比较大,百度收录量有3000万,百度爬虫每天抓取500万次左右,单页收录率80%,这个数字看起来还不错,但是分析了详细的日志文件,还是能发现一些问题。
1、为了方便用户找到自己需要的信息,大型网站的列表页通常会设置多个过滤条件( ),但爬虫并不够智能,无法自主判断哪些条件可以组合,哪些条件是没有意义的。只要代码中有链接,就会进行爬取,导致百度爬虫在列表过滤页面上耗费了大量的资源。经过一个月的数据分析发现,百度30%的抓取量都消耗在列表页上,但列表页带来的百度自然流量只占到全部百度自然流量的2%。因此,对于网站的列表页来说,爬虫的投入产出很低。
2、重复抓取现象严重。我个人认为,对于一个网站来说,那些只被抓取过一次的页面( )是最有价值的,因为对于内容质量还过得去的页面,只要被抓取过一次,收录的几率就在80%以上。如果页面本身质量不好,就算被抓取了几十次也不会被收录。继续分析我们网站的数据发现,在百度爬虫每天500万次的抓取中,超过一半的抓取都是对同一页面的多次抓取。如果能将这些重复的抓取转移到那些一次都没被抓取过的页面上,对网站的价值无疑会更大。

这两个问题该如何解决呢?
先说第一个,关于过滤页面消耗爬虫资源的问题,很多人建议用标签来告诉爬虫不要继续给这些页面分配权重,我们也这么做了,但事实证明百度爬虫对标签并不敏感,用了之后,爬虫还是爬得疯了,并没有把权重从过滤页面转移到标准页面。

无奈之下,我们只好考虑使用SEO杀手:文件,把过滤页面全部删除。之前没用禁止爬虫的原因是担心如果禁止爬虫爬取列表,会不会爬取不了其他页面?毕竟列表过滤页面还是会给单页贡献大量词条的,但结合我们网站单页收录现状,我们还是决定试一试。
事实证明效果非常明显,新版本上线三天后,列表页的爬虫抓取量下降到了15%。同时,之前担心的问题并没有出现,总抓取量不但没有减少,反而增加了10%左右,单页抓取量也增加了20%。可以说,我们预期的目标已经达到了:把浪费在列表页上的爬虫资源转移到其他需要抓取的页面上。

但如何证明爬虫的资源确实转移到了需要爬取的页面上呢?这正是前面提到的第二个问题。我们查看了单次爬取率(只爬取一次的页面数/总爬取次数)的变化,从50%上升到了74%。这说明在读完文件之后,爬虫对爬虫资源进行了更加合理的分配,爬取到了更多的单页。
总结:相比其他手段,文件可以在更短的时间内优化百度爬虫资源的配置,但这必须建立在网站本身良好的结构和内容的基础上。同时最重要的是要反复测试,通过日志分析调整实际情况,才能达到最佳效果。转载自百度站长社区