如何在scrapy中捕获robots.txt禁止的请求?通常这似乎会被自动忽略,即输出中没有任何内容,所以我真的不能告诉那些网址会发生什么。理想情况下,如果抓取一个网址导致robots.txt错误禁止此操作,我想输出{'url': url, 'status': 'forbidden by robots.txt'}
之类的记录。我怎样才能做到这一点?
新的scrapy。感谢任何帮助。
答案 0 :(得分:2)
转到项目文件夹中的settings.py
,然后将ROBOTSTXT_OBEY = True
更改为ROBOTSTXT_OBEY = False
。