我正在使用scrapy框架来进行api调用(广泛爬网)并使用scrapy redis在分布式网络中运行它。我从Redis获取启动URL,然后使用中间件来发出后续请求。任务的响应时间(初始请求+后续请求集)根据API参数而变化。
由于scrapy-redis
中的蜘蛛依赖蜘蛛空闲信号来获取开始网址。我无法利用所有资源,因为它等待批处理请求结束(批量大小= 100)。
如何调整scrapy-redis
,以便在任务结束后立即获取起始网址。我尝试使用redis-batch-size=1
运行多个进程,但由于每个scrapy进程占用大量内存,因此无法解决我的问题。