我有一个非常大的Dataframe,有8000列和50000行。
我想将其统计信息写入excel文件。
我想我们可以使用describe()
方法。但是如何将它写成excel以良好的格式。感谢
答案 0 :(得分:2)
describe
的返回类型是pyspark数据帧。将describe
数据帧转换为excel可读格式的最简单方法是将其转换为pandas数据帧,然后将pandas数据帧写为csv文件,如下所示
import pandas
df.describe().toPandas().to_csv('fileOutput.csv')
如果您想要excel格式,可以尝试以下
import pandas
df.describe().toPandas().to_excel('fileOutput.xls', sheet_name = 'Sheet1', index = False)
注意,上面要求安装xlwt包(在命令行中pip install xlwt)