掌握robots.txt文件:禁止二级域名抓取与提升搜索引擎友好度的五大技巧

2025-01-22
来源:网络整理

5、禁止抓取某二级域名

有些网站会给VIP会员提供一些特殊的服务,但他们不希望这种服务被搜索引擎收录。

用户-: *

:/

以上五个技巧足以提高你控制搜索引擎蜘蛛的能力。就像百度说的:我们和搜索引擎应该是朋友。只有加强沟通,才能消除一些障碍。

SEO优化,如何设置网站的.txt

.txt基本语法:

1..txt的几个关键语法:

一个。用户-:适用以下规则的机器人,例如等。

b.:被屏蔽的URL不允许被机器人访问。

c.:允许访问的URL

d. “*”:通配符 - 匹配 0 个或多个任意字符。

e. “$”:匹配行终止符。

f. “#”:注释——解释性文字,不必写。

g.: 搜索机器人(也称为搜索蜘蛛)。

h.:百度搜索机器人(也称搜索蜘蛛)。

我。目录和URL的写法:均以正斜杠(/)开头。

喜欢

:/

://

://

:/CSS/

2.列出.txt的一些具体用法:

(1)允许所有访问

用户-: *

:

或者

用户-: *

:/

做网站的优化_网站做seo优化该怎么做_优化网站建设seo

或者创建一个空文件“.txt”。

(2) 仅禁止机器人访问您的网站,例如。

用户-:

:/

3.只允许某个机器人访问您的网站,例如。

用户-:

:

用户-: *

:/

4.禁止访问特定目录

用户-: *

: //

:/CSS/

:

要阻止访问包含问号 (?) 的所有 URL(具体来说,以您的域名开头、后跟任意字符串、问号、任意字符串的 URL),请使用以下命令:

用户-:

: /*?

要指定 URL 末尾的匹配项,请使用 $。例如,要阻止所有以 .xls 结尾的 URL,请使用以下命令:User-:

: /*.xls$

您可以使用此模式与指令匹配。例如,如果?表示会话 ID,您可能希望排除任何包含 ? 的 URL。以确保不抓取重复的页面。但是以 ? 结尾的 URL可能是您想要包含的页面的版本。在这种情况下,您可以按如下方式设置 .txt 文件:

用户-: *

: /*?$

: /*?

这 : /*?指令将阻止任何包含 ? 的 URL (具体来说,它将阻止任何以您的域名开头、后跟任意字符串、问号、任意字符串的 URL)。

网站做seo优化该怎么做_做网站的优化_优化网站建设seo

: /*?$ 该指令将允许任何以 ? 结尾的 URL (具体来说,它将允许任何以您的域名开头,后跟任何字符串,然后是 ? 的 URL,后面不跟任何字符)。

上面的介绍大多是;=。详情可百度查看http:-www--com//.html

一般来说,在网站上查看.txt文件的方法是在主页后面添加.txt。比如淘宝的就是http:-www--com/.txt。请注意,只有当您的网站包含您不希望被搜索引擎索引的内容时,才会执行此操作。 ,您需要使用.txt 文件。如果您希望搜索引擎包含您网站上的所有内容,请勿创建 .txt 文件。

SEO优化,如何设置网站的.txt

网站.txt协议,你了解多少?

.txt 文件是网站和搜索引擎之间通信的通用协议。通过协议的设置,告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取:一方面可以保护网站安全,更重要的是可以用于优化,减少无效收录页面,提高网站的排名效果。 ..

..

但在实际操作中,绝大多数网站在文笔上都或多或少存在着不足。即使是书写上的技术错误,也可能会导致网站被降级、不收录、上K等一系列问题。出现。关于这一点,包括我在内的A5 在客户的SEO诊断过程中会经常遇到,也算是很多网站的通病。今天写这篇文章只是为了分享:关于.txt协议,你写对了吗?

1:设置抓取全站

百度收录越多,网站排名就越高?这是大多数站长所相信的,事实上也是如此。但这并不是绝对正确的:低质量的页面收录会降低网站的排名效果。你考虑过这个吗?

如果你的网站结构不是很清晰,没有多余的“功能”页面,不建议抓取整个网站。事实上,在A5的SEO诊断中,只遇到了极少数的网站。可以真正允许整个站点的爬行而不阻塞它。随着功能的丰富,不可能让整个网站都被抓取。

2:什么样的页面不建议抓取?

对于网站上功能有用的目录和有用的页面,可以更好地提高用户体验。但对于搜索引擎而言,会造成服务器负担,比如大量的翻页评论,没有优化价值。

此外,还包括:网站经过伪静态处理后,必须屏蔽动态链接,避免搜索引擎抓取。用户登录目录、注册目录、无用软件下载目录,如果是静态类型网站,动态类型链接必须被屏蔽:/*?* 为什么?让我们举个例子:

以上是客户网站发现的问题。之所以被百度收录,是因为有人恶意提交了此类链接,但网站本身并没有受到保护。

三:书面细节注意事项

从方法上来说,绝大多数站长都明白,这里不再赘述。不懂的站长可以去百度百科查一下。今天我就来说说一些不常见的,可能是很多站长都会问的问题。

1、例如:/a和/a/的区别。很多站长都看到过这个问题。为什么有些协议在后面添加斜杠而有些则不添加?笔者今天想说的是:如果没有斜杠,则阻止所有以字母a开头的目录和页面,后者意味着阻止对当前目录的所有页面和子目录进行爬取。

一般来说,我们更倾向于选择后者,因为定义的范围越广,就越容易造成“误杀”。

2、JS文件和CSS需要屏蔽吗?很多网站都这么做了,但我想说的是:站长工具明确指出:屏蔽css和js调用可能会影响页面质量的判断,从而影响排名。我们对此做了一些了解,百度也会产生一定的影响。

3. 阻止删除的目录。很多站长经常因为担心404问题而删除一些目录,因此将其屏蔽,以防止搜索引擎抓取此类链接。事实上,这样真的好吗?即使你屏蔽了,如果之前的目录有问题,如果不被蜘蛛从库中删除,仍然会影响网站。

建议最好的办法是梳理对应的主要错误页面,提交死链接,定制404页面的处理,彻底解决问题而不是回避。

分享