尊敬的客户,您好!我们是北京一家专注互联网技术服务公司,可以提供收录效果好,文章排名好的网站进行发文,发得多,各种关键词排名就多,流量越多越稳定,如果您有需要欢迎您前来资讯!可以随意添加图文和视频广告,助您的企业或者项目服务实现推广效果!如需合作欢迎请加微信
搜索引擎用来抓取并访问网页的程序称为蜘蛛(),又称机器人(bot)。搜索引擎蜘蛛访问网站页面时,与普通用户使用浏览器的方式类似。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序将收到的代码存储在原始页面数据库中。为了增加爬行抓取速度,搜索引擎采用多台蜘蛛来分散爬行。
当蜘蛛访问一个网站时,会先访问该网站根目录下的.txt文件,如果.txt文件禁止搜索引擎抓取某些网页或内容,或该网站,则蜘蛛会遵循协议不去抓取(详情可参阅顾悦的建站博客《协议文件如何编写及语法属性讲解》)。
蜘蛛也有自己的代理名,蜘蛛爬行的痕迹在站长日志中是可以看到的,这也是为什么很多站长在回答问题的时候,会要求你先查看网站日志(作为一个优秀的SEO,你必须具备不借助任何软件就能查看网站日志的能力,并且非常熟悉那些代码的含义)。
1.搜索引擎蜘蛛的基本原理
搜索引擎蜘蛛是一个很形象的名字,如果把互联网比作一张蜘蛛网,那么搜索引擎蜘蛛就是在网上爬来爬去的蜘蛛。
网络蜘蛛通过链接地址来搜索网页,它从网站的某个页面(通常是首页)开始,读取网页内容,找到网页中的其他链接地址,再通过这些链接地址搜索下一个网页,如此循环,直到爬取完网站的所有网页。
如果把整个互联网看作一个网站,那么网络蜘蛛就可以利用这个原理,爬取互联网上所有的网页。
搜索引擎想要抓取互联网上所有的网页几乎是不可能的,据目前公布的数据,容量最大的搜索引擎也只能抓取全部网页数量的40%左右。
其中一个原因是爬虫技术的瓶颈,100亿个网页的容量是100×1000字节,即便能存下来,下载也会有问题(按照一台机器每秒下载20K计算,需要340台机器连续下载一年才能下载完所有网页),同时由于数据量太大,在提供搜索的时候也会影响效率。
因此很多搜索引擎蜘蛛只抓取重要的网页(每个搜索引擎的蜘蛛抓取原理不一样,可以参考顾月建站博客的《解读IIS日志中的搜索引擎蜘蛛名称代码和抓取返回码》查看自己的网站日志),而抓取时评估重要性的主要依据是某个网页的链接深度。
由于不可能爬取所有的网页,有些网络蜘蛛对一些不太重要的网站设置了访问的层级数,例如下图所示:
A为起始网页,属于0层,B、C、D、E、F属于1层,G、H属于2层,I属于3层。如果网络蜘蛛将访问层数设置为2,则I号网页将不会被访问。这也就造成了有些网站的部分网页可以在搜索引擎上搜索到,而其他部分则无法被搜索到。
对于网站设计师来说,扁平的网站结构设计有助于搜索引擎抓取更多的网页。
网络蜘蛛在访问网站页面时,经常会遇到加密数据和页面权限的问题,部分页面需要会员权限才能访问。
当然,网站所有者可以通过协议的方式阻止网络蜘蛛抓取自己的网站,但是对于一些销售报告的网站来说,他们希望搜索引擎能够搜索到自己的报告,但又不能让搜索者完全免费查看,这时就需要为网络蜘蛛提供相应的用户名和密码。
网络蜘蛛可以通过赋予的权限来爬取这些网页以提供搜索,而当搜索者点击查看网页时,也需要搜索者提供相应的权限验证。
2. 跟踪链接

为了抓取互联网上尽可能多的页面,搜索引擎蜘蛛会跟踪网页上的链接,从一个页面爬到另一个页面,就像蜘蛛在蜘蛛网上爬行一样。这就是搜索引擎蜘蛛这个名字的由来。
整个互联网网站是由相互连接的链接构成的,这意味着搜索引擎蜘蛛最终会从任何一个页面开始抓取所有的页面。
当然,网站和页面链接结构太复杂,蜘蛛只能通过一定的方法爬取所有页面。据古月建站系统介绍,最简单的爬取策略有三种:
1. 最佳优先
最佳优先搜索策略通过一定的网页分析算法预测候选URL与目标网页的相似度或者与主题的相关度,选取评价最好的一个或几个URL进行抓取,只访问被网页分析算法预测为“有用”的网页。
一个问题是,爬虫的爬行路径上可能会忽略很多相关网页。由于最佳优先级策略是一种局部最优的搜索算法,需要结合具体应用对最佳优先级进行改进,以跳出局部最优点。根据顾悦网站建设博客的研究,这样的闭环调整可以减少 30%~90% 的不相关网页数量。
2.深度优先
深度优先的意思是蜘蛛沿着发现的链接一直向前爬行,直到前面没有其他链接时,才返回到第一个页面,再沿着另一个链接向前爬行。
3.广度优先
广度优先爬行的意思是当蜘蛛发现一个页面上有多个链接时,它并不会一直跟着一个链接向前爬行,而是先爬行该页面上所有的链接,然后进入第二级页面,再沿着在第二级找到的链接爬行到第三级页面。
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就能够爬取整个互联网。
在实际工作中,蜘蛛的带宽资源和时间并不是无限的,不可能爬取所有的页面,事实上最大的搜索引擎也只是爬取和收录了互联网的一小部分。当然,并不是搜索引擎蜘蛛爬取的越多越好,我在古月建站博客的《搜索引擎蜘蛛爬取网站越多越好吗?》一文中对此有详细介绍。
因此,为了尽可能多地捕获用户信息,通常将深度优先和广度优先结合起来使用,这样既可以照顾到尽可能多的网站,又可以照顾到部分网站的内部页面。
3.搜索引擎蜘蛛工作过程中的信息收集
信息收集模块由“蜘蛛控件”和“网络蜘蛛”两部分组成,“蜘蛛”这个名字很形象的描述了信息收集模块的功能,就是获取网络数据所构成的“网”上的信息。
一般来说,网络蜘蛛都是从种子网页开始,反复下载网页并搜索文档中从未出现过的URL,从而访问其他网页,完成整个Web的遍历。

其工作策略一般可分为累积抓取( )和增量抓取( )两种。
1. 累计抓取
累积爬取是指通过遍历的方式从某个时间点开始爬取系统能够存储和处理的所有网页,在理想的软硬件环境下,经过足够的运行时间后,累积爬取策略可以保证爬取到相当数量的网页集合。
但在古越网站建设看来,由于Web数据的动态特性,集合中的网页是在不同的时间抓取的,并且网页更新的情况也各有不同,因此累计抓取的网页集合实际上并不能与真实环境下的网络数据保持一致。
2.增量爬取
与累积式爬取不同的是,增量爬取是指在一定规模的网页集基础上,通过更新数据,爬取现有集合中过时的网页,以保证爬取的数据足够接近真实的网络数据。
增量爬取的前提是系统已经爬取了足够数量的网页并且拥有这些网页被爬取的时间信息,实际应用环境的网络蜘蛛设计通常同时包含增量爬取和累积爬取两种策略。
累积爬取一般用于数据集的整体建立或者大规模更新阶段,而增量爬取主要用于数据集的日常维护或者实时更新阶段。
在确定了抓取策略之后,如何充分利用网络带宽、合理确定更新网页数据的时间点就成为网络蜘蛛运行策略的核心问题。
总体来说,在网络数据实时爬取的软硬件资源的合理利用方面已经形成了相对成熟的技术和切实可行的解决方案。古月网站建设认为,这方面需要解决的主要问题是如何更好地处理动态网络数据问题(如日益庞大的Web2.0数据量等),以及如何根据网页质量更好地修正爬取策略。
4.数据库
为了避免重复抓取和爬取URL,搜索引擎会建立一个数据库来记录已经找到但还未抓取的页面和已经抓取过的页面。那么数据库中的URL是从哪里来的呢?
1. 手动输入种子网站
简单来说就是我们新建一个网站之后,将网址提交给百度或者360收录。
2.蜘蛛爬行页面
如果搜索引擎蜘蛛在爬行过程中,发现了数据库中没有的新的链接URL,那么就会把它存入数据库,以供访问(网站观察期)。

蜘蛛根据重要性从待访问页面数据库中取出URL,对页面进行访问和抓取,然后将该URL从待访问页面数据库中删除,放入已访问页面数据库中。因此古越网站建设建议各位站长在观察期内尽量定期更新自己的网站。
3. 网站管理员提交网站
一般来说,提交网站只是把网站存入数据库供访问,如果网站长期不更新,蜘蛛是不会来访问的,搜索引擎收录的页面都是蜘蛛自己跟踪链接得到的。
所以提交给搜索引擎其实用处不大,还是要看你以后网站更新的程度,搜索引擎更喜欢顺着链接本身去发现新页面。当然如果你的SEO技术够精湛,有能力的话,可以试试,说不定会有意想不到的效果。不过对于普通站长来说,古越网站建设还是建议让蜘蛛自然地去抓取新站页面。
5.吸引蜘蛛
虽然理论上蜘蛛可以抓取所有页面,但这实际上是不可能的,所以SEO人员如果想收录更多页面,就只能想方设法引诱蜘蛛抓取。
既然它不能抓取所有页面,我们就需要让它抓取重要的页面,因为重要页面在索引中起着重要作用,直接影响排名因素。那么哪些页面比较重要呢?对此,古月网站建设特意整理了以下我认为比较重要的页面,具体有以下几个特点:
1.网站和页面权限
质量高、历史久远的网站权重高,这类网站的页面被蜘蛛抓取的深度更高,所以收录的内部页面更多。
2. 页面更新率
蜘蛛每次爬行都会保存页面数据,如果发现页面和第一次爬行时一模一样,说明该页面没有更新过,蜘蛛没必要频繁爬行抓取数据。
如果页面内容更新频繁,蜘蛛就会频繁地抓取,那么页面上新增的链接自然就会被蜘蛛更快的跟踪和抓取,这也是为什么需要每天更新文章的原因(详情可参阅顾悦的建站博客《百度收录网站文章的现状及原则》相关介绍)。
3. 入站链接
不管是外部链接还是同一个网站的内部链接,要想被蜘蛛抓取,就必须有入站链接进入页面,否则蜘蛛根本不知道页面的存在,这时候URL链接就起着非常重要的作用,内部链接的重要性就发挥出来了。
此外,古越网站建设认为,高质量的入站链接往往会增加页面出站链接的抓取深度。
这也是为什么大部分站长或者SEO都希望得到高质量友情链接的原因,因为蜘蛛从对方网站爬到你的网站的次数更多、深度更深。