Scrapy ROBOTSTXT_OBEY在所有情况下都不起作用

时间:2014-11-06 14:06:10

标签: python scrapy robots.txt

所以我设置了一个Scrapy项目,并启用了ROBOTSTXT_OBEY中间件,该中间件在以下格式的robot.txt文件上正常工作:

用户代理:* 禁止:/ tools /

但是当网站上的同一个蜘蛛带有以下格式的robots.txt文件时,它无法正常工作:

用户代理:* 禁止:*?下一步

这会导致页面仍然被抓取,应该被robots.txt阻止,顺便提一下robots.txt文件的完全有效标记。

只是想知道是否有人可以解释为什么会出现这种情况?

1 个答案:

答案 0 :(得分:0)

Scrapy使用Python标准robots.txt解析器,它不支持通配符。