Question

有人可以解释我如何编写robots.txt文件，如果我想要所有抓取工具索引root和某些特定子域

User-agent: *
Allow: /
Allow: /subdomain1/
Allow: /subdomain2/

这是对的吗？我应该把它放在哪里？在根（public_html）文件夹或每个子域文件夹中？

Answer 1

无法在单个robots.txt文件中指定不同子域的规则。给定的robots.txt文件将仅控制对其请求的子域的爬网。如果您想阻止某些子域并允许其他子域，则需要提供来自不同子域的不同robots.txt文件。

例如，如果您想允许抓取http://crawlme.example.com/，但又要阻止抓取http://nocrawl.example.com/，那么：

# Allow everything:
User-agent: *
Disallow:

# Block everything:
User-agent: *
Disallow: /