我有一个非常简单的webapp,它在HTML5的Canvas中运行,没有任何需要被搜索引擎索引的公共文件(超出包含所有必要资源调用的首页HTML文件)。因此,我真的不需要robots.txt
文件,因为他们只会看到公共文件,就是这样。
现在,作为一个笑话,我想每次网络爬虫询问robots.txt
时都会返回HTTP-418 AKA“我是茶壶”的回复。但是,如果这最终会让我误解我在搜索结果中的位置,那么这对我来说不是一个非常值得的笑话。
有没有人知道不同的网络抓取工具如何响应非标准(虽然在这种情况下技术上是标准的)HTTP代码?
此外,更严重的是,有没有理由让robots.txt
文件说“一切都可以索引!”而不仅仅是没有文件?
答案 0 :(得分:0)
拥有一个空白的robots.txt文件也会告诉抓取工具您希望将所有内容编入索引。 robots.txt有一个allow
指令,但它是非标准的,不应该依赖它。这样做很好,因为只要搜索引擎尝试从您的网站请求不存在的robots.txt,就会在访问日志中堆积404错误。
发送非标准HTTP代码不是一个好主意,因为您完全不知道搜索引擎将如何响应它。如果他们不接受它,他们可能会使用404标题作为后备,而这显然不是您想要发生的事情。基本上,这是开个玩笑的好地方。