如何为子域正确编写robots.txt文件?

时间:2017-04-10 10:01:50

标签: robots.txt google-crawlers

有人可以解释我如何编写robots.txt文件,如果我想要所有抓取工具索引root和某些特定子域

User-agent: *
Allow: /
Allow: /subdomain1/
Allow: /subdomain2/

这是对的吗?我应该把它放在哪里?在根(public_html)文件夹或每个子域文件夹中?

1 个答案:

答案 0 :(得分:3)

无法在单个robots.txt文件中指定不同子域的规则。给定的robots.txt文件将仅控制对其请求的子域的爬网。如果您想阻止某些子域并允许其他子域,则需要提供来自不同子域的不同robots.txt文件。

例如,如果您想允许抓取http://crawlme.example.com/,但又要阻止抓取http://nocrawl.example.com/,那么:

http://crawlme.example.com/robots.txt应包含:

# Allow everything:
User-agent: *
Disallow:

http://nocrawl.example.com/robots.txt应包含:

# Block everything:
User-agent: *
Disallow: /