Question

我在root.txt文件中找到了这个

禁止：/搜索

这是什么意思？

Answer 1

如果您正在谈论robots.txt文件，那么它会向网络抓取工具表明他们要避免进入以该主机上的/ search开头的网址。您的robots.txt文件与Robots Exclusion Standard。

相关

你在问题标题中提到“robot.txt”，在正文中提到“root.txt”。如果这确实是robots.txt文件，则需要将其命名为“robots.txt”，否则它根本不起作用。

Answer 2

它指示机器人/抓取工具/蜘蛛不应访问该文件夹中的任何内容或该网址的变体，例如以下示例：

/search
/search?term=x
/search/page/
/search/category=y&term=x
/search/category-name/term/

关于上述评论如何影响索引（无论搜索引擎或其他实体是否会对URL进行编目），其中没有一个是完全正确的。

应该注意，robots.txt文件中的说明是 crawl 指令，而不是 indexation 指令。虽然合规机器人会在请求URL之前读取robots.txt文件并确定是否允许对其进行爬网，但禁止规则不会阻止索引（在不合规机器人的情况下，也不会阻止访问/爬行/刮削）。

您会定期在Google中看到搜索结果的实例，其元描述暗示该网页已被包含但无法访问; “我们无法显示描述，因为我们不允许抓取此页面”。这通常发生在Google（或w / e）遇到不允许的网址时，但认为仍应对该网址进行编目 - 在Google的情况下，这通常发生在不允许使用高度链接和/或权威的网址时。

为了防止索引，您最好使用页面上的元标记，甚至是x-robots http标头（对于非页面资源（如PDF等）尤其有用）。

Answer 3

“禁止：/搜索”告诉搜索引擎漫游器不要对包含“ / search ”的链接进行索引和抓取，例如，如果链接为{{3}然后机器人不会抓取并索引此链接。