在我的蜘蛛中,我返回了500个JSON对象。对于每个对象,我必须向该对象的网页发出请求,并从该网页中删除数据。
在项目通过管道之前,我必须从相应的网页上删除数据。
我认为当我创建一个新的scrapy Request
时会出现问题。即使该请求的priority
非常高,它仍然没有解析它发出请求的先前start_urls
,因此新请求只是位于队列中,直到有一个并发的开放点要求。
有没有办法强制scrapy执行新请求,在请求完成和页面抓取之前阻止该项目,或者我应该反对scheduler
的核心并使用{{1模块?