file-upload - Multipart从Apache Spark上传到Amazon S3

Multipart从Apache Spark上传到Amazon S3

时间：2014-10-12 04:42:55

标签： file-upload amazon-s3 apache-spark jets3t

在将数据保存到Amazon S3时，如何使Apache Spark使用分段上传。 Spark使用RDD.saveAs...File方法写入数据。当目的地以s3n://开始时，Spark会自动使用JetS3Tt进行上传，但对于大于5G的文件则会失败。需要使用分段上传将大文件上传到S3，这对于较小的文件也应该是有益的。 JetS3Tt中使用MultipartUtils支持分段上传，但Spark不会在默认配置中使用它。有没有办法让它使用这个功能。

2 个答案:

答案 0 :(得分：2)

这是 s3n 的限制，您可以使用新的 s3a 协议访问S3中的文件。 s3a基于aws-adk库并支持许多功能，包括分段上传。有关此link的详细信息：

答案 1 :(得分：0)

s3n似乎处于弃用状态。

来自documentation

Amazon EMR使用带有URI方案的S3 Native FileSystem，s3n。虽然这仍然有效，但我们建议您使用s3 URI方案以获得最佳性能，安全性和可靠性