谷歌将停止支持Robots.txt Noindex

搜够小编 • 2022年2月21日 am9:49 • seo技术

自2019年9月1日起，谷歌将不再支持robots.txt索引指令。这意味着，如果您只依赖robots.txt noindex指令从搜索结果中删除这些页面，那么谷歌将开始为您的页面建立索引，你必须在9月1日前移除它并使用另一种方法。

什么是noindex robots.txt？

它是robots.txt文件中的一个标记(通常在HTML中)，它阻止搜索引擎将该页面包含在搜索结果中。

为什么谷歌不再支持它？

因为noindex robots.txt指令不是官方指令，正如谷歌所说：

为了维护一个健康的生态系统，并为未来可能的开源版本做准备，我们将在2019年9月1日停用所有处理不受支持和未发布规则(如noindex)的代码。

Robots.txt -机器人排除协议(REP)

机器人排除协议(REP)，更广为人知的是机器人。txt自1994年开始使用，但从未成为官方的互联网标准。但是，如果没有合适的标准，网站管理员和爬行器都对爬行的内容感到困惑。此外，该代表从未更新到涵盖今天的情况。

根据谷歌官方博客：

REP从未成为正式的Internet标准，这意味着多年来开发人员对协议的解释有些不同。而且自从它成立以来，代表还没有更新到涵盖今天的角落的情况。对于网站所有者来说，这是一个具有挑战性的问题，因为模糊的标准使得正确编写规则变得困难。

为了结束这种混乱，谷歌记录了如何在web上使用REP，并将其提交给IETF (Internet Engineering Task Force)，这是一个开放标准组织，旨在使Internet更好地工作。

这对你来说意味着什么？

如果您在robots.txt文件中使用noindex，谷歌将不再支持它。

如果继续在robots.txt文件中使用noindex，您将在谷歌搜索控制台中看到一个通知。

使用Robots.txt索引指令的替代方法

如果你的网站仍然依赖robots.txt noindex指令，那就需要做出改变，因为从2019年9月1日开始，google机器人将不会遵守该指令。但是你应该用什么来代替呢？以下是一些替代方案：

1.使用“noindex”元标记阻止搜索索引

为了防止搜索引擎爬行器索引页面，可以使用“noindex”元标记并将其添加到页面的部分。

< meta name = ” robots” content = ” noindex ” >

或者，您可以使用HTTP响应头和一个X-Robots-Tag指示爬虫程序不索引页面：

HTTP / 1.1 200 OK

(…)

X-Robots-Tag: noindex

2.使用404和410 HTTP状态码

410是当目标资源在源服务器上不再可用时返回的状态码。

410响应主要是为了协助web维护任务，通知接收方该资源是故意不可用的，服务器所有者希望删除到该资源的远程链接。

404类似于410状态码，从我们的角度来看，从中长期来看，404和410对我们来说是一样的。在这两种情况下，我们都从索引中删除这些url。

3.使用密码保护

您可以在登录之后隐藏页面，因为谷歌不会索引隐藏在付费内容或登录之后的页面。

4.禁止机器人使用Robots.txt

您可以使用robots.txt文件中的disallow指令来指示搜索引擎不允许对所选页面进行索引，这仅仅意味着告诉搜索引擎不要抓取特定的页面。

5.使用搜索控制台删除URL工具

您可以使用搜索控制台删除URL工具从搜索结果中临时删除URL，将持续90天。如果希望永久删除，则可以使用上面建议的四种方法中的任何一种。

原创文章，作者：搜够小编，如若转载，请注明出处：http://www.sogoubaike.cn/archives/109221