在scrapy中共享多个蜘蛛之间的访问URL?

时间:2014-04-13 19:03:28

标签: python scrapy web-crawler scrapyd

我正在使用scrapyd在同一个域中运行多个蜘蛛作为作业。我假设scrapy有一个访问URL的哈希表,它在爬行时与其他蜘蛛共享和协调。当我通过

创建同一个蜘蛛的实例时
curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

它反而抓取相同的网址,并且正在抓取重复的数据。以前有人处理过类似的问题吗?

1 个答案:

答案 0 :(得分:1)

我的建议是尝试将网站划分为多个start_urls。然后,you can pass the different values for start_urls to each spider

如果您想特别喜欢(或者如果要抓取的页面定期更改),您可以创建一个爬行站点地图的蜘蛛,将链接分成n个块,然后启动n其他蜘蛛实际抓取网站......