所以我设置了一个Scrapy项目,并启用了ROBOTSTXT_OBEY中间件,该中间件在以下格式的robot.txt文件上正常工作:
用户代理:* 禁止:/ tools /
但是当网站上的同一个蜘蛛带有以下格式的robots.txt文件时,它无法正常工作:
用户代理:* 禁止:*?下一步
这会导致页面仍然被抓取,应该被robots.txt阻止,顺便提一下robots.txt文件的完全有效标记。
只是想知道是否有人可以解释为什么会出现这种情况?
答案 0 :(得分:0)
Scrapy使用Python标准robots.txt解析器,它不支持通配符。