如何有效地将大数据加载到pandas中?

时间:2018-02-26 13:22:49

标签: python pandas dataframe

我正在使用非常宽的数据集(1005行* 590,718列,1.2G)。将这样大的数据集加载到pandas数据帧中会导致代码失败,完全是由于内存不足。

我知道Spark可能是处理大型数据集的Pandas的一个很好的替代品,但是在Pandas中是否存在任何可以在加载大数据时减少内存使用量的解决方案?

1 个答案:

答案 0 :(得分:2)

您可以使用

pandas.read_csv(filename, chunksize = chunksize)