我有一个大型数据框,大小为2亿行和50列。数据框包含文本和数字数据。
我正在使用熊猫将数据帧写入磁盘,下面是我正在使用的to_csv()
函数,
df.to_csv("test.csv",index=True,header=True,chunksize=100000)
我已经阅读了多个与此类似的主题,但是找不到任何合适的答案。以下是我尝试过的要点,
我也尝试过将文件写入tmpfs
(内存磁盘),但没有任何改进,下面提供了进一步的验证步骤,
mount -t tmpfs -o size=50000m tmpfs /tmp-disk/
然后
df.to_csv("/tmp-disk/test.csv",index=True,header=True,chunksize=100000)
此外,在这里我不可以选择拆分和启动多个线程。而且我只需要输出csv。