Question

我正在将一个火花数据帧保存到S3存储桶。保存文件的默认存储类型为STANDARD。我需要它是STANDARD_IA。实现这一目标的选择是什么？我查看了火花源代码，发现https://github.com/apache/spark/blob/branch-2.1/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

中的spark DataFrameWriter没有这样的选项

以下是我用来写入S3的代码：

val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)

编辑：我现在使用CopyObjectRequest来更改创建的镶木地板的存储类型：

val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)

Answer 1

S3A连接器无法使用;它是志愿者在HADOOP-12020中实施所有测试的。 FWIW，这将是艰难的测试。我不了解亚马逊自己的连接器。

为什么不定义铲斗的生命周期并让每天晚上移动物品？