我正在写一个Amazon S3存储桶,但我希望该文件具有比part-r-0-8asdifafasd98fu.csv
更常规,易读的名称?是否有选项或其他方法?
val savePath = "s3a://<...>"
val pdata = sqlContext.read.parquet(readPath + "/*")
val writer: DataFrameWriter[Row] = pdata.coalesce(1).write
writer.format("csv")
.mode("overwrite")
.option("header", "true")
.option("delimiter", "|")
.option("nullValue", "")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.save(savePath)
答案 0 :(得分:1)
没有办法拥有更易读的格式。每个分区都在一个单独的部分文件中写入S3存储桶。在hadoop中,我们通常将数据集视为目录,并且该目录中的所有文件都是数据集的一部分。