在robots.txt
上搜索特定信息时,我偶然发现了Yandex help page关于此主题的信息。它建议我可以使用Host
指令告诉爬虫我的首选镜像域:
User-Agent: *
Disallow: /dir/
Host: www.myhost.com
另外,Wikipedia article表示Google也理解Host
指令,但没有太多(即没有)信息。
在robotstxt.org,我在Host
(或维基百科上所述的Crawl-delay
)上找不到任何内容。
Host
指令?robots.txt
具体针对Google的资源吗?答案 0 :(得分:11)
original robots.txt specification说:
忽略无法识别的标头。
他们称之为“标题”,但这个术语并未在任何地方定义。但正如在有关格式的部分中提到的那样,以及与User-agent
和Disallow
相同的段落中,似乎可以安全地假设“标题”表示“字段名称”。
是的,您可以使用Host
或任何其他字段名称。
但请记住:由于robots.txt项目未指定它们,因此您无法确定不同的解析器是否以相同的方式支持此字段。因此,您必须手动检查每个支持解析器。