如何将spark sql dataframe的摘要写入excel文件

时间:2017-04-21 16:44:10

标签: apache-spark pyspark spark-dataframe

我有一个非常大的Dataframe,有8000列和50000行。 我想将其统计信息写入excel文件。 我想我们可以使用describe()方法。但是如何将它写成excel以良好的格式。感谢

1 个答案:

答案 0 :(得分:2)

describe的返回类型是pyspark数据帧。将describe数据帧转换为excel可读格式的最简单方法是将其转换为pandas数据帧,然后将pandas数据帧写为csv文件,如下所示

import pandas
df.describe().toPandas().to_csv('fileOutput.csv')

如果您想要excel格式,可以尝试以下

import pandas
df.describe().toPandas().to_excel('fileOutput.xls', sheet_name = 'Sheet1', index = False)

注意,上面要求安装xlwt包(在命令行中pip install xlwt)