Question

我正在尝试将数据帧保存到hdfs系统中。它被保存为0000部分并分成多个部分。我想将其另存为Excel工作表还是仅保存为一个零件文件？我们如何实现这一目标？

到目前为止使用的

代码：

  df1.write.csv('/user/gtree/tree.csv')

Answer 1

您的数据帧将根据其分区（多个分区=多个文件）进行保存。您可以合并或将分区降低到1，这样只能写入1个文件。

df1.coalesce(1).write.csv('/user/gtree/tree.csv')

Answer 2

您可以使用 .repartition(1) 将分区设置为仅 1

df.repartition(1).save(filePath)