应用错误收集

时间：2011-11-16 06:15:50

标签： http-headers search-engine web-crawler search-engine-bots

我有一个非常简单的webapp，它在HTML5的Canvas中运行，没有任何需要被搜索引擎索引的公共文件（超出包含所有必要资源调用的首页HTML文件）。因此，我真的不需要robots.txt文件，因为他们只会看到公共文件，就是这样。

现在，作为一个笑话，我想每次网络爬虫询问robots.txt时都会返回HTTP-418 AKA“我是茶壶”的回复。但是，如果这最终会让我误解我在搜索结果中的位置，那么这对我来说不是一个非常值得的笑话。

有没有人知道不同的网络抓取工具如何响应非标准（虽然在这种情况下技术上是标准的）HTTP代码？

此外，更严重的是，有没有理由让robots.txt文件说“一切都可以索引！”而不仅仅是没有文件？

答案 0 :(得分：0)

拥有一个空白的robots.txt文件也会告诉抓取工具您希望将所有内容编入索引。 robots.txt有一个allow指令，但它是非标准的，不应该依赖它。这样做很好，因为只要搜索引擎尝试从您的网站请求不存在的robots.txt，就会在访问日志中堆积404错误。
发送非标准HTTP代码不是一个好主意，因为您完全不知道搜索引擎将如何响应它。如果他们不接受它，他们可能会使用404标题作为后备，而这显然不是您想要发生的事情。基本上，这是开个玩笑的好地方。