标签: celery scrapy
现在我想用scrapy和芹菜来完成一个分布式刮刀,我目前的想法是使用主从方法,有人能告诉我这是一个好主意吗?有一个很好的开源项目吗?
答案 0 :(得分:2)
当我实施分布式爬行设置时。我在redis的帮助下实现了这一点。我是这样做的。
我有一个要抓取的域列表。我会将这些域上传到redis。在我的项目中,我有30K域来从中抓取数据。
使用redis-py客户端与redis对话,并将每个url提供给scrapy。