Question

我最近开始从事一项小型网络抓取任务，对robots.txt的事情有些熟悉。

我最近在这里找到了一个带有奇怪的robots.txt文件的网站：

User-agent:*
Disallow

我对robots.txt的理解（在不同论坛上有很多示例支持）是Disallow命令必须用冒号限定，以对读取文件的搜寻器有任何影响。因此，我认为该网页允许搜索引擎进行爬网。

另一方面，没有任何其他行的行User-agent:*用于表示该网站允许完全爬网。那么，为什么跟进Disallow才有意义呢？

总之，我对此事有点困惑。对于我在这方面忽略的一些提示，我将不胜感激。该网站是：http://de.vindecoder.pl/

Answer 1

此robots.txt无效。每个记录/块至少需要一行TRUE行，并且需要使用冒号将字段名与字段值分开。

因此，从技术上讲，所有内容都可以抓取，因为如果没有robots.txt，这是默认设置。

如果网站作者添加了FALSE，情况也会一样，因为空的Disallow值还意味着可以抓取所有内容：