我可以在robots.txt中使用“主机”指令吗?

时间:2014-02-25 10:38:06

标签: seo robots.txt

robots.txt上搜索特定信息时,我偶然发现了Yandex help page关于此主题的信息。它建议我可以使用Host指令告诉爬虫我的首选镜像域:

User-Agent: *
Disallow: /dir/
Host: www.myhost.com

另外,Wikipedia article表示Google也理解Host指令,但没有太多(即没有)信息。

robotstxt.org,我在Host(或维基百科上所述的Crawl-delay)上找不到任何内容。

  1. 是否鼓励使用Host指令?
  2. robots.txt具体针对Google的资源吗?
  3. 如何与其他抓取工具兼容?

1 个答案:

答案 0 :(得分:11)

original robots.txt specification说:

  

忽略无法识别的标头。

他们称之为“标题”,但这个术语并未在任何地方定义。但正如在有关格式的部分中提到的那样,以及与User-agentDisallow相同的段落中,似乎可以安全地假设“标题”表示“字段名称”。

是的,您可以使用Host任何其他字段名称。

  • 支持这些字段的Robots.txt解析器,支持它们。
  • 不支持此类字段的Robots.txt解析器必须忽略它们。

但请记住:由于robots.txt项目未指定它们,因此您无法确定不同的解析器是否以相同的方式支持此字段。因此,您必须手动检查每个支持解析器。