如果我用HTTP代码418 AKA“我是一个茶壶”回应robots.txt的请求,这会让搜索引擎不喜欢我吗?

时间:2011-11-16 06:15:50

标签: http-headers search-engine web-crawler search-engine-bots

我有一个非常简单的webapp,它在HTML5的Canvas中运行,没有任何需要被搜索引擎索引的公共文件(超出包含所有必要资源调用的首页HTML文件)。因此,我真的不需要robots.txt文件,因为他们只会看到公共文件,就是这样。

现在,作为一个笑话,我想每次网络爬虫询问robots.txt时都会返回HTTP-418 AKA“我是茶壶”的回复。但是,如果这最终会让我误解我在搜索结果中的位置,那么这对我来说不是一个非常值得的笑话。

有没有人知道不同的网络抓取工具如何响应非标准(虽然在这种情况下技术上是标准的)HTTP代码?

此外,更严重的是,有没有理由让robots.txt文件说“一切都可以索引!”而不仅仅是没有文件?

1 个答案:

答案 0 :(得分:0)

  1. 拥有一个空白的robots.txt文件也会告诉抓取工具您希望将所有内容编入索引。 robots.txt有一个allow指令,但它是非标准的,不应该依赖它。这样做很好,因为只要搜索引擎尝试从您的网站请求不存在的robots.txt,就会在访问日志中堆积404错误。

  2. 发送非标准HTTP代码不是一个好主意,因为您完全不知道搜索引擎将如何响应它。如果他们不接受它,他们可能会使用404标题作为后备,而这显然不是您想要发生的事情。基本上,这是开个玩笑的好地方。