以下是我在AWS中的应用程序的步骤。
S3
文件夹中加载。我怎样才能实现这个目标?
据我所知,有两种选择。
AWS lambda
函数,lambda将创建EMR集群,并将执行spark-submit。 AWS Data pipeline
会对我的情况有所帮助吗?
我也有火花scala脚本,我一直在运行zeppelin。 如果需要,我可以创建jar并在数据管道中提交。
请考虑费用。我每周要向客户提供5TB的数据。
答案 0 :(得分:1)
我认为您应该使用数据管道。管道将负责EMR创建,作业提交以及处理完成后关闭EMR。您可以在“活动”部分中指定EMR的步骤。 “资源”部分可以指定EMR集群的参数(如要使用的实例类型/角色等)
您甚至可以配置警报 - 如果管道因某种原因失败,则通过SNS向您发送电子邮件。
现在谈到如何触发管道。如果进入的数据是预定的时间,您可以考虑在管道中使用“schedule”。然后,管道将在每天/每周/每月的指定时间激活。