当GET robots.txt返回一个不相关的html文件时会发生什么?

时间:2015-07-23 10:19:56

标签: robots.txt google-crawlers

我有一个能够提供各种网络应用资产的网络服务器。当请求的资产不存在时,它会发送回index.html。换句话说:

  • GET /img/exists.png - > exists.png
  • GET /img/inexistent.png - >的index.html

这也意味着:

GET /robots.txt - >的index.html

Google(和其他)抓取工具如何处理此问题?他们会检测到robots.txt无效并忽略它(与返回404相同)吗?或者他们会因为提供无效的robots.txt而惩罚我的排名吗?这是可以接受的吗,或者当我正在投放的应用没有robots.txt时,我是否应该回复404?

1 个答案:

答案 0 :(得分:2)

我知道的每个robots.txt处理程序只需丢弃它们即可处理无效行。因此,HTML文件(可能不包含任何有效的robots.txt指令)将被有效地视为空白文件。但这并不是任何官方标准的一部分。 (semi-)official standard假设任何robots.txt文件都包含robot.txt指令。包含HTML的robots.txt文件的行为未定义。

如果您关心抓取工具,那么更大的问题不在于您提供了无效的robot.txt文件,而是您没有机制在资源不存在时告诉抓取工具(或其他任何人)。从爬虫的角度来看,您的网站将包含一些普通页面以及主页的无限数量的精确副本。我强烈建议您找到更改设置的方法,以便不存在的资源返回状态404。