如何使用Rabbitmq或Kafka缩放Scrapy Spider,以User_id作为输入并从数据库获取相应的url?

时间:2019-03-09 05:41:20

标签: python scrapy scrapyd scrapy-pipeline scrapy-shell

我已经构建了一个抓抓蜘蛛,它使用user_id作为命令行参数并从数据库获取url。现在,我希望我的应用程序具有可伸缩性。

与此同时,我正在查看互联网上提供的一些解决方案,但并非所有解决方案都完全符合我的要求,因为有些建议将大量url传递给scrapy并进行抓取,而另一些建议使用root url并保留所有内容Scrapy,但是我的用例是完全不同的。我在这里寻找方法。

如果我可以在蜘蛛网上分配客户端ID,也可以分配URL,而不是分配URL。

0 个答案:

没有答案