将DataFrameWriter文件保存为人类可读的格式

时间:2016-10-19 23:43:16

标签: scala apache-spark amazon-s3

我正在写一个Amazon S3存储桶,但我希望该文件具有比part-r-0-8asdifafasd98fu.csv更常规,易读的名称?是否有选项或其他方法?

val savePath = "s3a://<...>"

val pdata = sqlContext.read.parquet(readPath + "/*")

val writer: DataFrameWriter[Row] = pdata.coalesce(1).write

writer.format("csv")
 .mode("overwrite")
 .option("header", "true")
 .option("delimiter", "|")
 .option("nullValue", "")
 .option("codec", "org.apache.hadoop.io.compress.GzipCodec")
 .save(savePath)

1 个答案:

答案 0 :(得分:1)

没有办法拥有更易读的格式。每个分区都在一个单独的部分文件中写入S3存储桶。在hadoop中,我们通常将数据集视为目录,并且该目录中的所有文件都是数据集的一部分。