Question

我的服务器上有以下文件：

/file
/file.html
/file/bob.html

我想将它们全部排除在索引之外。以下robots.txt是否足够？

User-Agent: *
Disallow: /file

甚至只是：

User-Agent: *
Disallow: /f

注意：

据我所知，Google的机器人会接受/file，因为他们不接受所有提到的文件（请参阅https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt），但我不想只针对谷歌，而是所有表现良好的机器人，所以我的问题是关于原始标准，而不是后来对它的扩展。

Answer 1

简而言之，是的。

如果你有：

User-agent: *
Disallow: /abc

它将阻止以/ abc开头的任何，包括：

/abc
/abc.html
/abc/def/ghi
/abcdefghi
/abc?x=123

这是原始robots.txt标准的一部分，适用于所有遵守robots.txt的机器人。

关于robots.txt要记住的事情是，它故意不是很复杂。它旨在使爬虫能够轻松实现。除非你使用扩展名（如通配符），否则它是一个简单的字符串比较。该指令将匹配以您给出的字符序列开头的任何URL。

robots.txt中路径的开头是否足够？

1 个答案: