完成第一页后,如何强制抓取来分析第二页

时间:2018-10-27 22:14:15

标签: python python-3.x scrapy scrapy-spider

我正在使用Scrapy 1.5.1版。我创建了解析器,该解析器从主页解析URL,然后从已解析的URL解析URL,等等。Scrapy异步工作并建立并行连接。问题是,我有一些逻辑应该首先解析url,创建我已经访问过的url集,要访问的最大url等。

起初,我配置了CONCURRENT_REQUESTS_PER_DOMAIN=1CONCURRENT_REQUESTS=1,但没有帮助,因为我认为有一个调度程序会缓存URL,然后将其处理,然后以不同的顺序执行。

我需要做的是强迫scrapy处理一个URL,等到完成后再开始解析新的URL,等等。有没有办法配置scrapy来做到这一点?

1 个答案:

答案 0 :(得分:0)