这批批火花用例的最佳方法是什么?

时间:2018-01-30 04:37:02

标签: apache-spark amazon-s3 emr

我正在尝试在S3上构建解决方案。我有很多文件每小时被转储到s3。现在在spark中我需要处理这些文件并再次写回s3。什么是最好的方法?我想到的方法之一是

1)每当向s3写入文件时,在SQS中生成一个事件 2)以批处理模式运行的Spark将读取sqs事件,处理当时s3中的所有事件并将它们写回s3。

我在这里看到的问题是 1)如果在处理wave中的消息并写入s3之前删除来自sqs的消息之前我的公园会发生故障,会发生什么?可以在sq中删除sqs并将其写入s3作为原子操作吗?

1 个答案:

答案 0 :(得分:0)

尝试使用AWS Data Pipeline自动执行此任务。

您可以配置为触发EMR Spark Cluster每小时启动一次,前提是文件每小时出现在s3上,处理数据并将结果存储回s3。

作业完成后,您的群集可以终止。

https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-console-templates.html