在scala-spark中用标头写入数据集/数据帧

时间:2019-04-17 09:14:17

标签: scala apache-spark-sql

我有一个要存储在hdfs中的sql.DataFrame(我相信是Dataset[Row])df。我是这样的:

 df.write
  .option("compression", "gzip")
  .option("sep", "\t")
  .option("header", "true")
  .csv(some_hdfs_path)

我不想做repartition(1),因为文件可能太大了。

不幸的是,它将写入10个文件,每个文件的第一行都包含标题。理想情况下,我希望首先使用带有标头的文件,然后再选择不带标头的文件。

最好的方法是什么?

谢谢

0 个答案:

没有答案