我需要从Java应用程序将多个文件更新为s3。但问题是,我们需要所有原子文件,即全部或全部。
我无法找到任何解决方案。 欢迎任何建议。
谢谢!
答案 0 :(得分:0)
直到我能找到的唯一优雅的解决方案是在DataFrame中读取它(使用spark库)并编写。
我还实现了一些用于锁定/同步目的的提交文件(比如_commit)的检查,这基本上也是由Spark API完成的。
希望有帮助。如果任何人还有其他解决方案,欢迎与他们分享。 :)
答案 1 :(得分:0)
S3是最终的一致性存储,因此您将需要诸如_commit之类的机制。实木复合地板格式及其他为您完成。格式选项取决于您的读者,例如,没有用于Parquet的RedShift批量加载器,因此对于该用例,AVRO是更好的格式。
需要使用这些文件的所有系统都支持哪些常用格式?