将大型稀疏熊猫数据框保存为Excel

时间:2019-06-24 18:19:10

标签: python excel pandas dataframe

我有一个477k行和530列,具有不同dtypes的大型稀疏熊猫数据框。当我使用以下命令检查熊猫内的内存使用情况时:

df.memory_usage().sum()

它给了我GB的大小。因此,我使用以下命令将数据帧转换为稀疏数据帧:

df.to_sparse()

并且,现在memory_usage减少到80MB。但是,当我将其导出到excel时,磁盘上的文件大小约为500MB。该文件已打开,但它需要永久的时间才能打开和浏览数据。当我在excel中选择一个列时,应该给我该列中记录数的计数,在这种情况下,它给我的计数就是数据帧的长度(即477k行),但实际上,该列具有15000条记录已填充数据,其余所有记录均为空白(所有列均相同)。我假设在将数据导出到excel时,excel也将数据填充到空白单元格中。有什么办法可以解决这个问题?

0 个答案:

没有答案
相关问题