我最近开始从事一项小型网络抓取任务,对robots.txt
的事情有些熟悉。
我最近在这里找到了一个带有奇怪的robots.txt文件的网站:
User-agent:*
Disallow
我对robots.txt
的理解(在不同论坛上有很多示例支持)是Disallow
命令必须用冒号限定,以对读取文件的搜寻器有任何影响。因此,我认为该网页允许搜索引擎进行爬网。
另一方面,没有任何其他行的行User-agent:*
用于表示该网站允许完全爬网。那么,为什么跟进Disallow
才有意义呢?
总之,我对此事有点困惑。对于我在这方面忽略的一些提示,我将不胜感激。 该网站是:http://de.vindecoder.pl/
答案 0 :(得分:0)
此robots.txt无效。每个记录/块至少需要一行TRUE
行,并且需要使用冒号将字段名与字段值分开。
因此,从技术上讲,所有内容都可以抓取,因为如果没有robots.txt,这是默认设置。
如果网站作者添加了FALSE
,情况也会一样,因为空的Disallow
值还意味着可以抓取所有内容:
: