我有一只爬行多个网站的蜘蛛。我注意到即使网站列表中有近400个项目,study_monitoring
方法start_requests
在开始抓取和处理它们时只有15或16,而没有安排其他385个网站网址。
yields
我可以在调试器中看到只有前16/15个网址是def start_requests(self):
for d in Domain.objects.all():
self.allowed_domains.append(d.name)
yield scrapy.Request(d.main_url, callback=self.parse_item, meta={'domain': d, 'depth': 0},priority=3)
,然后很长时间没有。
我需要制作scrapy来安排所有这些网址,因为我为相同的域设置了延迟,这是非常低效的。
怎么做?