我有一个要存储在hdfs中的sql.DataFrame(我相信是Dataset[Row]
)df。我是这样的:
df.write
.option("compression", "gzip")
.option("sep", "\t")
.option("header", "true")
.csv(some_hdfs_path)
我不想做repartition(1)
,因为文件可能太大了。
不幸的是,它将写入10个文件,每个文件的第一行都包含标题。理想情况下,我希望首先使用带有标头的文件,然后再选择不带标头的文件。
最好的方法是什么?
谢谢