我正在尝试将数据帧保存到hdfs系统中。 它被保存为0000部分并分成多个部分。 我想将其另存为Excel工作表还是仅保存为一个零件文件? 我们如何实现这一目标?
到目前为止使用的代码:
df1.write.csv('/user/gtree/tree.csv')
答案 0 :(得分:0)
您的数据帧将根据其分区(多个分区=多个文件)进行保存。您可以合并或将分区降低到1,这样只能写入1个文件。
链接:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.coalesce
df1.coalesce(1).write.csv('/user/gtree/tree.csv')
答案 1 :(得分:0)
您可以使用 .repartition(1)
将分区设置为仅 1
df.repartition(1).save(filePath)