Multipart从Apache Spark上传到Amazon S3

时间:2014-10-12 04:42:55

标签: file-upload amazon-s3 apache-spark jets3t

在将数据保存到Amazon S3时,如何使Apache Spark使用分段上传。 Spark使用RDD.saveAs...File方法写入数据。当目的地以s3n://开始时,Spark会自动使用JetS3Tt进行上传,但对于大于5G的文件则会失败。需要使用分段上传将大文件上传到S3,这对于较小的文件也应该是有益的。 JetS3Tt中使用MultipartUtils支持分段上传,但Spark不会在默认配置中使用它。有没有办法让它使用这个功能。

2 个答案:

答案 0 :(得分:2)

这是 s3n 的限制,您可以使用新的 s3a 协议访问S3中的文件。 s3a基于aws-adk库并支持许多功能,包括分段上传。有关此link的详细信息:

答案 1 :(得分:0)

s3n似乎处于弃用状态。

来自documentation

  

Amazon EMR使用带有URI方案的S3 Native FileSystem,s3n。虽然这仍然有效,但我们建议您使用s3 URI方案以获得最佳性能,安全性和可靠性