应用错误收集

时间：2018-01-30 04:37:02

标签： apache-spark amazon-s3 emr

我正在尝试在S3上构建解决方案。我有很多文件每小时被转储到s3。现在在spark中我需要处理这些文件并再次写回s3。什么是最好的方法？我想到的方法之一是

1）每当向s3写入文件时，在SQS中生成一个事件 2）以批处理模式运行的Spark将读取sqs事件，处理当时s3中的所有事件并将它们写回s3。

我在这里看到的问题是 1）如果在处理wave中的消息并写入s3之前删除来自sqs的消息之前我的公园会发生故障，会发生什么？可以在sq中删除sqs并将其写入s3作为原子操作吗？

答案 0 :(得分：0)

尝试使用AWS Data Pipeline自动执行此任务。

您可以配置为触发EMR Spark Cluster每小时启动一次，前提是文件每小时出现在s3上，处理数据并将结果存储回s3。

作业完成后，您的群集可以终止。