在AWS服务上运行抓取脚本

时间:2020-02-26 11:31:44

标签: amazon-web-services

我正在从Internet上抓取数据,并希望使用AWS自动进行。我检查了两个解决方案:AWS Data Pipeline和AWS Lambda。

数据管道似乎无法访问在线网站。正确吗?

AWS Lambda只能将我的功能运行15分钟,而抓取大约需要25分钟。再次,它不适合我的目的。

我应该使用哪个AWS服务作为用例?

1 个答案:

答案 0 :(得分:0)

您可以启动Amazon EC2实例。您可以通过“用户数据”字段传递启动脚本,该脚本将在实例首次启动时执行。

然后,当任务完成时,停止或终止实例。

请注意,您选择的Amazon EC2 Instance Types将具有变化的网络带宽,这可能会影响抓取任务的速度。

请始终遵守目标网站的条款,以免您的抓取活动违反其条款。

相关问题