Spark写入S3存储选件

时间:2018-02-22 06:05:20

标签: apache-spark amazon-s3

我正在将一个火花数据帧保存到S3存储桶。保存文件的默认存储类型为STANDARD。我需要它是STANDARD_IA。实现这一目标的选择是什么?我查看了火花源代码,发现https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

中的spark DataFrameWriter没有这样的选项

以下是我用来写入S3的代码:

val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)

编辑:我现在使用CopyObjectRequest来更改创建的镶木地板的存储类型:

val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)

1 个答案:

答案 0 :(得分:0)

S3A连接器无法使用;它是志愿者在HADOOP-12020中实施所有测试的 。 FWIW,这将是艰难的测试。我不了解亚马逊自己的连接器。

为什么不定义铲斗的生命周期并让每天晚上移动物品?