我正在使用scrapyd在同一个域中运行多个蜘蛛作为作业。我假设scrapy有一个访问URL的哈希表,它在爬行时与其他蜘蛛共享和协调。当我通过
创建同一个蜘蛛的实例时curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.
它反而抓取相同的网址,并且正在抓取重复的数据。以前有人处理过类似的问题吗?
答案 0 :(得分:1)
我的建议是尝试将网站划分为多个start_urls
。然后,you can pass the different values for start_urls
to each spider。
如果您想特别喜欢(或者如果要抓取的页面定期更改),您可以创建一个爬行站点地图的蜘蛛,将链接分成n
个块,然后启动n
其他蜘蛛实际抓取网站......