提高熊猫to_csv()的速度以将大数据写入磁盘

时间:2018-11-28 09:18:18

标签: python pandas optimization

我有一个大型数据框,大小为2亿行和50列。数据框包含文本和数字数据。

我正在使用熊猫将数据帧写入磁盘,下面是我正在使用的to_csv()函数,

df.to_csv("test.csv",index=True,header=True,chunksize=100000)

我已经阅读了多个与此类似的主题,但是找不到任何合适的答案。以下是我尝试过的要点,

  • 我已经尝试过使用编码和压缩来改变块大小来进行多次尝试,但是没有一个能够显着提高性能。
  • 我也尝试过将文件写入tmpfs(内存磁盘),但没有任何改进,下面提供了进一步的验证步骤,

    mount -t tmpfs -o size=50000m tmpfs /tmp-disk/

    然后

    df.to_csv("/tmp-disk/test.csv",index=True,header=True,chunksize=100000)

此外,在这里我不可以选择拆分和启动多个线程。而且我只需要输出csv。

0 个答案:

没有答案