多部分s3的原子更新

时间:2017-12-05 18:46:19

标签: amazon-s3 atomic

我需要从Java应用程序将多个文件更新为s3。但问题是,我们需要所有原子文件,即全部或全部。

我无法找到任何解决方案。 欢迎任何建议。

谢谢!

2 个答案:

答案 0 :(得分:0)

直到我能找到的唯一优雅的解决方案是在DataFrame中读取它(使用spark库)并编写。

我还实现了一些用于锁定/同步目的的提交文件(比如_commit)的检查,这基本上也是由Spark API完成的。

希望有帮助。如果任何人还有其他解决方案,欢迎与他们分享。 :)

答案 1 :(得分:0)

S3是最终的一致性存储,因此您将需要诸如_commit之类的机制。实木复合地板格式及其他为您完成。格式选项取决于您的读者,例如,没有用于Parquet的RedShift批量加载器,因此对于该用例,AVRO是更好的格式。

需要使用这些文件的所有系统都支持哪些常用格式?