相关问题:Multiple User Agents in Robots.txt
我正在某个网站上阅读robots.txt文件,这似乎与我相矛盾(但我不确定)。
User-agent: *
Disallow: /blah
Disallow: /bleh
...
...
...several more Disallows
User-agent: *
Allow: /
我知道您可以通过指定多个用户代理来排除某些机器人,但是这个文件似乎是说所有机器人都不允许访问所有文件而是允许访问所有文件?或者我读错了。
答案 0 :(得分:1)
此robots.txt无效,因为只有一条记录User-agent: *
。如果我们解决它,我们有:
User-agent: *
Disallow: /blah
Disallow: /bleh
Allow: /
Allow
不属于original robots.txt specification,因此并非所有解析器都能理解它(那些必须忽略该行)。
对于理解Allow
的解析器,此行仅表示:允许所有内容(else)。但无论如何这是默认值,所以这个robots.txt具有相同的含义:
User-agent: *
Disallow: /blah
Disallow: /bleh
含义:除路径以blah
或bleh
开头的网址外,一切都被允许。
如果Allow
行之前 Disallow
行,则某些解析器might会忽略Disallow
行。但是,由于未指定Allow
,因此解析器与解析器可能不同。