5、禁止抓取某二级域名
有些网站会给VIP会员提供一些特殊的服务,但他们不希望这种服务被搜索引擎收录。
用户-: *
:/
以上五个技巧足以提高你控制搜索引擎蜘蛛的能力。就像百度说的:我们和搜索引擎应该是朋友。只有加强沟通,才能消除一些障碍。
SEO优化,如何设置网站的.txt
.txt基本语法:
1..txt的几个关键语法:
一个。用户-:适用以下规则的机器人,例如等。
b.:被屏蔽的URL不允许被机器人访问。
c.:允许访问的URL
d. “*”:通配符 - 匹配 0 个或多个任意字符。
e. “$”:匹配行终止符。
f. “#”:注释——解释性文字,不必写。
g.: 搜索机器人(也称为搜索蜘蛛)。
h.:百度搜索机器人(也称搜索蜘蛛)。
我。目录和URL的写法:均以正斜杠(/)开头。
喜欢
:/
://
://
:/CSS/
2.列出.txt的一些具体用法:
(1)允许所有访问
用户-: *
:
或者
用户-: *
:/
或者创建一个空文件“.txt”。
(2) 仅禁止机器人访问您的网站,例如。
用户-:
:/
3.只允许某个机器人访问您的网站,例如。
用户-:
:
用户-: *
:/
4.禁止访问特定目录
用户-: *
: //
:/CSS/
:
要阻止访问包含问号 (?) 的所有 URL(具体来说,以您的域名开头、后跟任意字符串、问号、任意字符串的 URL),请使用以下命令:
用户-:
: /*?
要指定 URL 末尾的匹配项,请使用 $。例如,要阻止所有以 .xls 结尾的 URL,请使用以下命令:User-:
: /*.xls$
您可以使用此模式与指令匹配。例如,如果?表示会话 ID,您可能希望排除任何包含 ? 的 URL。以确保不抓取重复的页面。但是以 ? 结尾的 URL可能是您想要包含的页面的版本。在这种情况下,您可以按如下方式设置 .txt 文件:
用户-: *
: /*?$
: /*?
这 : /*?指令将阻止任何包含 ? 的 URL (具体来说,它将阻止任何以您的域名开头、后跟任意字符串、问号、任意字符串的 URL)。
: /*?$ 该指令将允许任何以 ? 结尾的 URL (具体来说,它将允许任何以您的域名开头,后跟任何字符串,然后是 ? 的 URL,后面不跟任何字符)。
上面的介绍大多是;=。详情可百度查看http:-www--com//.html
一般来说,在网站上查看.txt文件的方法是在主页后面添加.txt。比如淘宝的就是http:-www--com/.txt。请注意,只有当您的网站包含您不希望被搜索引擎索引的内容时,才会执行此操作。 ,您需要使用.txt 文件。如果您希望搜索引擎包含您网站上的所有内容,请勿创建 .txt 文件。
SEO优化,如何设置网站的.txt
网站.txt协议,你了解多少?
.txt 文件是网站和搜索引擎之间通信的通用协议。通过协议的设置,告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取:一方面可以保护网站安全,更重要的是可以用于优化,减少无效收录页面,提高网站的排名效果。 ..
..
但在实际操作中,绝大多数网站在文笔上都或多或少存在着不足。即使是书写上的技术错误,也可能会导致网站被降级、不收录、上K等一系列问题。出现。关于这一点,包括我在内的A5 在客户的SEO诊断过程中会经常遇到,也算是很多网站的通病。今天写这篇文章只是为了分享:关于.txt协议,你写对了吗?
1:设置抓取全站
百度收录越多,网站排名就越高?这是大多数站长所相信的,事实上也是如此。但这并不是绝对正确的:低质量的页面收录会降低网站的排名效果。你考虑过这个吗?
如果你的网站结构不是很清晰,没有多余的“功能”页面,不建议抓取整个网站。事实上,在A5的SEO诊断中,只遇到了极少数的网站。可以真正允许整个站点的爬行而不阻塞它。随着功能的丰富,不可能让整个网站都被抓取。
2:什么样的页面不建议抓取?
对于网站上功能有用的目录和有用的页面,可以更好地提高用户体验。但对于搜索引擎而言,会造成服务器负担,比如大量的翻页评论,没有优化价值。
此外,还包括:网站经过伪静态处理后,必须屏蔽动态链接,避免搜索引擎抓取。用户登录目录、注册目录、无用软件下载目录,如果是静态类型网站,动态类型链接必须被屏蔽:/*?* 为什么?让我们举个例子:
以上是客户网站发现的问题。之所以被百度收录,是因为有人恶意提交了此类链接,但网站本身并没有受到保护。
三:书面细节注意事项
从方法上来说,绝大多数站长都明白,这里不再赘述。不懂的站长可以去百度百科查一下。今天我就来说说一些不常见的,可能是很多站长都会问的问题。
1、例如:/a和/a/的区别。很多站长都看到过这个问题。为什么有些协议在后面添加斜杠而有些则不添加?笔者今天想说的是:如果没有斜杠,则阻止所有以字母a开头的目录和页面,后者意味着阻止对当前目录的所有页面和子目录进行爬取。
一般来说,我们更倾向于选择后者,因为定义的范围越广,就越容易造成“误杀”。
2、JS文件和CSS需要屏蔽吗?很多网站都这么做了,但我想说的是:站长工具明确指出:屏蔽css和js调用可能会影响页面质量的判断,从而影响排名。我们对此做了一些了解,百度也会产生一定的影响。
3. 阻止删除的目录。很多站长经常因为担心404问题而删除一些目录,因此将其屏蔽,以防止搜索引擎抓取此类链接。事实上,这样真的好吗?即使你屏蔽了,如果之前的目录有问题,如果不被蜘蛛从库中删除,仍然会影响网站。
建议最好的办法是梳理对应的主要错误页面,提交死链接,定制404页面的处理,彻底解决问题而不是回避。