如何抓住robots.txt禁止?

时间:2017-05-25 18:47:23

标签: python scrapy

如何在scrapy中捕获robots.txt禁止的请求?通常这似乎会被自动忽略,即输出中没有任何内容,所以我真的不能告诉那些网址会发生什么。理想情况下,如果抓取一个网址导致robots.txt错误禁止此操作,我想输出{'url': url, 'status': 'forbidden by robots.txt'}之类的记录。我怎样才能做到这一点?

新的scrapy。感谢任何帮助。

1 个答案:

答案 0 :(得分:2)

转到项目文件夹中的settings.py,然后将ROBOTSTXT_OBEY = True更改为ROBOTSTXT_OBEY = False