Question

我正在使用scrapyd在同一个域中运行多个蜘蛛作为作业。我假设scrapy有一个访问URL的哈希表，它在爬行时与其他蜘蛛共享和协调。当我通过

创建同一个蜘蛛的实例时

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

它反而抓取相同的网址，并且正在抓取重复的数据。以前有人处理过类似的问题吗？

Answer 1

我的建议是尝试将网站划分为多个start_urls。然后，you can pass the different values for start_urls to each spider。

如果您想特别喜欢（或者如果要抓取的页面定期更改），您可以创建一个爬行站点地图的蜘蛛，将链接分成n个块，然后启动n其他蜘蛛实际抓取网站......