尊敬的客户,您好!我们是北京一家专注互联网技术服务公司,可以提供收录效果好,文章排名好的网站进行发文,发得多,各种关键词排名就多,流量越多越稳定,如果您有需要欢迎您前来资讯!可以随意添加图文和视频广告,助您的企业或者项目服务实现推广效果!如需合作欢迎请加微信
大家好,我是格菲。
上次发帖已经是最后一次了,最近忙于一个新项目,耽误了写文章的时间。
今天终于有点空闲了,就来解答一下大家最近关心的问题吧。
时不时地,朋友们会问我一些问题:
1. 建立工具网站需要创建内容吗?
2.为什么不使用前端渲染?
3.为什么使用js不能实现多语言切换?
其实这些问题的答案都和的抓取方式有关。
所以今天,我就来跟大家聊聊是如何抓取我们的网页以及它是如何理解这些网页的。
注意,在下文中,葛非会在不同的句子中使用“URL”、“网页”、“链接”等不同的描述,有时是对同一事物。
1.爬行
不管是哪种网页,文章、新闻、图片页、视频页、音乐页, 还是依靠从网页中获取的文本信息来理解网页的。
那么如何获得它呢?
使用的爬虫是。
什么是爬虫?
爬虫这个词语是一个比喻说法,但它实际上是运行在服务器上的一段程序代码。
程序获取到一个URL之后,就会发送一个GET请求,去获取这个URL对应的HTML代码,这个就是爬虫主要做的事情。
注意这里我们只是获取了HTML代码,但是并不执行它。
我们可以想象一下,如果你的网页被前端渲染出来之后,那么你得到的只是一个HTML模板,没有任何内容,那它自然就不能参与排名了。
2. 分析
爬取到HTML代码之后,还需要用程序来解析HTML代码。
解析HTML代码的目的是为了提取网页的正文,当然,、、Meta信息等也会被识别并提取出来。
最重要的是,当前 html 页面中的所有链接都将被提取。

3. 索引
之后会把当前页面解析出来的信息存入数据库,然后进行分词,主题提取,语义理解,建立正向索引,反向索引等步骤,这里就不详细讲解了。
4. 处理环节
对于获取到的每一个链接,它会判断之前是否被爬过,爬过多久,是否需要再次爬取。
需要再次攀登的,将会被放入待攀登列表中。
所以格飞在之前的文章中提醒大家“如果想要快速被收录,除了提交到GSC后台外,还可以发帖到其他爬虫经常来的网站,吸引爬虫把我们的网站加入到被爬取的列表中”。
每个进入待爬取列表的URL都会经过上述步骤,不算作循环。
这样,就可以通过链接抓取互联网上所有网站的所有网页。
5. 内部链接、外部链接和反向链接
对于一个网站来说,链接分为内部链接和外部链接。
内部链接是内部链接的简称,是指向当前网站其他页面的链接。
外部链接是外部链接的简称,又称出站链接,是指指向其他网站的链接。
假设网站 A 有一个指向网站 B 的链接。
那么这个链接就是针对A网站的Link,也就是外部链接哪个网站发帖收录排名好,可以简称为外部链接。
对于B网站来说,这个链接就是Back Link,也就是反向链接,或者简称为反向链接。
有时,我们将反向链接称为外部链接,它实际上是指向不同网站的相同链接。
下面两句话其实表达的是同一个意思:
“我要创建一个外部链接”;
“我要为我的网站获取反向链接。”
六,
我们在.xml文件中列出网页,以便将它们添加到要抓取的列表中。
也许有人会问,有了它,我们就不再需要建立内部链接了吗?
飞哥告诉你,事实并非如此。

对于谷歌来说,这是一个谷歌可能不会听取,或者可能会部分听取的建议。
更喜欢通过链接来抓取和探索网站。
就连格非最新的网站,在不到一个月的时间里就收集了数十万条记录,这根本不是事实。
做法就是在首页不断的列出最新的内容,同时有一个可以逐一列出网站所有页面的页面。
这样就会吸引的爬虫程序继续抓取我们网站上的最新网页。
7. 页面深度
从首页出发,不断点击链接,到达某个页面的最短路径就是这个页面的深度。
一般我们会说页面深度不要超过5级,但是格飞建议最好在3级以内。
也就是说,你必须确保你网站上的任何页面都可以通过三次点击到达。
那么我们需要把一些深度页面改成广度页面。
有关如何操作的详细信息,您可以参考页脚部分。
如果有不懂的,请加入格菲好友付费社区,格菲会为你讲解。
8. 重量转移
权重将在站点内和站点之间转移。
我们可以把每一个网页看成是一个最小的单位,这个网页有很多个出站链接,也有很多个入站链接。
出站链接和入站链接都可以是内部链接或外部链接。
无论类型如何,每个链接都会传递权威。
一般内链都会设置为do,代表会完全转移权重,而外链为了不转移太多的权重则会设置为no。
有自己的一套复杂的算法,会综合考虑各种情况来计算出每个链接可以传递多少权重。
9. 关键词回忆
当用户搜索关键字时, 会找到具有与该关键字匹配的内容的网页。
如何找到它?

按反向索引搜索。
这里就不多说了,如果想了解更多,可以自行搜索,了解更多搜索引擎的原理。
但我们知道,一个网站要想被记住,内容必须足够匹配。
这需要先进行后端渲染,以便 爬虫可以抓取内容。
第二个要求是,即使我们是一个工具站,我们也必须创建内容,以便谷歌可以根据内容了解我们的工具是做什么的。
10. 搜索排名
召回的结果有几千万条,如何对网页进行排序呢?
谷歌最初使用算法根据权重对不同的网站进行排名。
然而经过20多年的发展,排序算法已经变得极其复杂,会根据多种因素进行排序。
具体因素请参见“”。
格飞建议大家仔细阅读上述文章,并在制作网页时考虑到每一个关键因素。
好的,上面介绍了这么多,现在我来回答一下开头的三个问题。
1. 建立工具网站需要创建内容吗?
格非的回答:当然要创作内容,如果你不创作内容,谷歌怎么知道你的工具是用来做什么的?谷歌无法通过运行你的工具来确定你工具的用途,所以只能根据你写的内容来判断。
你可能会问,谷歌相信我们所写的内容吗?
格非的回答:一开始会把所有人都当成好人,信任所有网页。然后它会根据搜索用户的表现来判断你的文字是否是真实的描述工具,如果发现有夸大之嫌,就会降低你的排名。
2.为什么不使用前端渲染?
格非的回答:因为无法获取前端渲染出来的网页的文字内容。
你可能会问,不会运行我们的js代码吗?
格非的回答:运行代码需要额外的计算能力, 之所以对一些大型网站如此优待,是因为 确实需要这些大型网站的内容,而对于我们这种小而破的网站, 也不算浪费计算能力,所以我们不用麻烦 ,后端渲染我们自己做不是更好吗?
3.为什么使用js不能实现多语言切换?
格非的回答:因为切换js不会改变URL,所以爬虫来的时候,只能爬取一种语言的内容,只能参与一种语言的搜索排名。那么这个网页多语言就相当于什么都没做。