我正在尝试使用他们提供的REST api从站点继续抓取大量信息。我有以下约束 -
现在我只是使用每分钟运行python脚本的计划任务 - 脚本进行10-20次api调用 - >处理响应 - >将数据存储到DB。我想扩展这个程序(每分钟做5 * 60 = 300次调用)并通过代码使其可管理(推送新任务,轻松暂停/恢复它们,监控故障,改变呼叫频率)。
我的问题是 - 实现这一目标的最佳工具是什么?任何建议/指导/链接都表示赞赏。
我知道一些任务排队框架的名称,比如Celery / RabbitMQ / Redis,但我对它们知之甚少。但是,如果这些是解决我问题的最佳工具,我愿意学习其中一个或每一个,想要在跳入之前听取SO退伍军人的意见☺
另外,请告诉我是否有任何其他AWS服务我应该使用(SQS或AWS Data Pipeline?)来简化任何步骤。
答案 0 :(得分:1)
您无需为速率限制添加外部依赖项,因为您的用例非常简单。
我可以想到两个选择: