我正在将一个火花数据帧保存到S3存储桶。保存文件的默认存储类型为STANDARD。我需要它是STANDARD_IA。实现这一目标的选择是什么?我查看了火花源代码,发现https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala
中的spark DataFrameWriter没有这样的选项以下是我用来写入S3的代码:
val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)
编辑:我现在使用CopyObjectRequest来更改创建的镶木地板的存储类型:
val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)
答案 0 :(得分:0)
S3A连接器无法使用;它是志愿者在HADOOP-12020中实施所有测试的 。 FWIW,这将是艰难的测试。我不了解亚马逊自己的连接器。
为什么不定义铲斗的生命周期并让每天晚上移动物品?