Question

我正在写一个Amazon S3存储桶，但我希望该文件具有比part-r-0-8asdifafasd98fu.csv更常规，易读的名称？是否有选项或其他方法？

val savePath = "s3a://<...>"

val pdata = sqlContext.read.parquet(readPath + "/*")

val writer: DataFrameWriter[Row] = pdata.coalesce(1).write

writer.format("csv")
 .mode("overwrite")
 .option("header", "true")
 .option("delimiter", "|")
 .option("nullValue", "")
 .option("codec", "org.apache.hadoop.io.compress.GzipCodec")
 .save(savePath)

Answer 1

没有办法拥有更易读的格式。每个分区都在一个单独的部分文件中写入S3存储桶。在hadoop中，我们通常将数据集视为目录，并且该目录中的所有文件都是数据集的一部分。

将DataFrameWriter文件保存为人类可读的格式

1 个答案: