robots.txt - 当GET robots.txt返回一个不相关的html文件时会发生什么？

当GET robots.txt返回一个不相关的html文件时会发生什么？

时间：2015-07-23 10:19:56

标签： robots.txt google-crawlers

我有一个能够提供各种网络应用资产的网络服务器。当请求的资产不存在时，它会发送回index.html。换句话说：

GET /img/exists.png - ＆gt; exists.png
GET /img/inexistent.png - ＆gt;的index.html

这也意味着：

GET /robots.txt - ＆gt;的index.html

Google（和其他）抓取工具如何处理此问题？他们会检测到robots.txt无效并忽略它（与返回404相同）吗？或者他们会因为提供无效的robots.txt而惩罚我的排名吗？这是可以接受的吗，或者当我正在投放的应用没有robots.txt时，我是否应该回复404？

1 个答案:

答案 0 :(得分：2)

我知道的每个robots.txt处理程序只需丢弃它们即可处理无效行。因此，HTML文件（可能不包含任何有效的robots.txt指令）将被有效地视为空白文件。但这并不是任何官方标准的一部分。 (semi-)official standard假设任何robots.txt文件都包含robot.txt指令。包含HTML的robots.txt文件的行为未定义。

如果您关心抓取工具，那么更大的问题不在于您提供了无效的robot.txt文件，而是您没有机制在资源不存在时告诉抓取工具（或其他任何人）。从爬虫的角度来看，您的网站将包含一些普通页面以及主页的无限数量的精确副本。我强烈建议您找到更改设置的方法，以便不存在的资源返回状态404。