我有一个能够提供各种网络应用资产的网络服务器。当请求的资产不存在时,它会发送回index.html。换句话说:
这也意味着:
GET /robots.txt - >的index.html
Google(和其他)抓取工具如何处理此问题?他们会检测到robots.txt无效并忽略它(与返回404相同)吗?或者他们会因为提供无效的robots.txt而惩罚我的排名吗?这是可以接受的吗,或者当我正在投放的应用没有robots.txt时,我是否应该回复404?
答案 0 :(得分:2)
我知道的每个robots.txt处理程序只需丢弃它们即可处理无效行。因此,HTML文件(可能不包含任何有效的robots.txt指令)将被有效地视为空白文件。但这并不是任何官方标准的一部分。 (semi-)official standard假设任何robots.txt文件都包含robot.txt指令。包含HTML的robots.txt文件的行为未定义。
如果您关心抓取工具,那么更大的问题不在于您提供了无效的robot.txt文件,而是您没有机制在资源不存在时告诉抓取工具(或其他任何人)。从爬虫的角度来看,您的网站将包含一些普通页面以及主页的无限数量的精确副本。我强烈建议您找到更改设置的方法,以便不存在的资源返回状态404。