Scrapy Redis:在不等待空闲信号的情况下获取next_request

时间:2017-11-21 17:44:40

标签: scrapy

我正在使用scrapy框架来进行api调用(广泛爬网)并使用scrapy redis在分布式网络中运行它。我从Redis获取启动URL,然后使用中间件来发出后续请求。任务的响应时间(初始请求+后续请求集)根据API参数而变化。

由于scrapy-redis中的蜘蛛依赖蜘蛛空闲信号来获取开始网址。我无法利用所有资源,因为它等待批处理请求结束(批量大小= 100)。

如何调整scrapy-redis,以便在任务结束后立即获取起始网址。我尝试使用redis-batch-size=1运行多个进程,但由于每个scrapy进程占用大量内存,因此无法解决我的问题。

0 个答案:

没有答案