有人可以解释我如何编写robots.txt文件,如果我想要所有抓取工具索引root和某些特定子域
User-agent: *
Allow: /
Allow: /subdomain1/
Allow: /subdomain2/
这是对的吗?我应该把它放在哪里?在根(public_html)文件夹或每个子域文件夹中?
答案 0 :(得分:3)
无法在单个robots.txt文件中指定不同子域的规则。给定的robots.txt文件将仅控制对其请求的子域的爬网。如果您想阻止某些子域并允许其他子域,则需要提供来自不同子域的不同robots.txt文件。
例如,如果您想允许抓取http://crawlme.example.com/,但又要阻止抓取http://nocrawl.example.com/,那么:
http://crawlme.example.com/robots.txt应包含:
# Allow everything:
User-agent: *
Disallow:
和http://nocrawl.example.com/robots.txt应包含:
# Block everything:
User-agent: *
Disallow: /