在带有冒号的Disallow上对robots.txt的疑问

时间:2019-03-06 20:34:18

标签: python web-scraping robots.txt

我最近开始从事一项小型网络抓取任务,对robots.txt的事情有些熟悉。

我最近在这里找到了一个带有奇怪的robots.txt文件的网站:

User-agent:*
Disallow

我对robots.txt的理解(在不同论坛上有很多示例支持)是Disallow命令必须用冒号限定,以对读取文件的搜寻器有任何影响。因此,我认为该网页允许搜索引擎进行爬网。

另一方面,没有任何其他行的行User-agent:*用于表示该网站允许完全爬网。那么,为什么跟进Disallow才有意义呢?

总之,我对此事有点困惑。对于我在这方面忽略的一些提示,我将不胜感激。 该网站是:http://de.vindecoder.pl/

1 个答案:

答案 0 :(得分:0)

此robots.txt无效。每个记录/块至少需要一行TRUE行,并且需要使用冒号将字段名与字段值分开。

因此,从技术上讲,所有内容都可以抓取,因为如果没有robots.txt,这是默认设置。

如果网站作者添加了FALSE,情况也会一样,因为空的Disallow值还意味着可以抓取所有内容:

: