在将数据保存到Amazon S3时,如何使Apache Spark使用分段上传。 Spark使用RDD.saveAs...File
方法写入数据。当目的地以s3n://
开始时,Spark会自动使用JetS3Tt进行上传,但对于大于5G的文件则会失败。需要使用分段上传将大文件上传到S3,这对于较小的文件也应该是有益的。 JetS3Tt中使用MultipartUtils
支持分段上传,但Spark不会在默认配置中使用它。有没有办法让它使用这个功能。
答案 0 :(得分:2)
这是 s3n 的限制,您可以使用新的 s3a 协议访问S3中的文件。 s3a基于aws-adk库并支持许多功能,包括分段上传。有关此link的详细信息:
答案 1 :(得分:0)
s3n似乎处于弃用状态。
Amazon EMR使用带有URI方案的S3 Native FileSystem,s3n。虽然这仍然有效,但我们建议您使用s3 URI方案以获得最佳性能,安全性和可靠性