我的服务器上有以下文件:
/file
/file.html
/file/bob.html
我想将它们全部排除在索引之外。以下robots.txt是否足够?
User-Agent: *
Disallow: /file
甚至只是:
User-Agent: *
Disallow: /f
注意:
据我所知,Google的机器人会接受/file
,因为他们不接受所有提到的文件(请参阅https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt),但我不想只针对谷歌,而是所有表现良好的机器人,所以我的问题是关于原始标准,而不是后来对它的扩展。
答案 0 :(得分:1)
简而言之,是的。
如果你有:
User-agent: *
Disallow: /abc
它将阻止以/ abc开头的任何,包括:
/abc
/abc.html
/abc/def/ghi
/abcdefghi
/abc?x=123
这是原始robots.txt标准的一部分,适用于所有遵守robots.txt的机器人。
关于robots.txt要记住的事情是,它故意不是很复杂。它旨在使爬虫能够轻松实现。除非你使用扩展名(如通配符),否则它是一个简单的字符串比较。该指令将匹配以您给出的字符序列开头的任何URL。