应用错误收集

Scrapy ROBOTSTXT_OBEY在所有情况下都不起作用

时间：2014-11-06 14:06:10

标签： python scrapy robots.txt

所以我设置了一个Scrapy项目，并启用了ROBOTSTXT_OBEY中间件，该中间件在以下格式的robot.txt文件上正常工作：

用户代理：* 禁止：/ tools /

但是当网站上的同一个蜘蛛带有以下格式的robots.txt文件时，它无法正常工作：

用户代理：* 禁止：*？下一步

这会导致页面仍然被抓取，应该被robots.txt阻止，顺便提一下robots.txt文件的完全有效标记。

只是想知道是否有人可以解释为什么会出现这种情况？

1 个答案:

答案 0 :(得分：0)

Scrapy使用Python标准robots.txt解析器，它不支持通配符。