这可能是一个众所周知的答案....但是为什么11GB的文件(csv)在导入Python(Pandas)或R?时会变成这个大小的两倍以上?
有问题的数据来自a Kaggle competition,解压后为11GB(列车文件)。当我将它加载到python或R中时,它占用的空间超过两倍。我在Windows上有32 GB的RAM(当我加载文件时可以释放~29)并且我的空间几乎耗尽。
在Python中:
import pandas as pd
train=pd.read_csv("C:\\Users\\train.csv")
在R:
train<-read.csv(file="C:\\train.csv",header=TRUE)
答案 0 :(得分:2)
将数据序列化到磁盘(例如,到CSV文件)是一项相当简单的任务,它只需要支持写入数据并以可预测的方式读取数据。要遵循的唯一规则是使用定义良好的格式。
另一方面,加载到RAM中进行处理的数据通常会增加,原因如下:
无论如何,它可能会发生,内存数据比一些糟糕的序列化格式更有效,但正如你所经历的那样,这不是你的情况。