Question

我正在使用非常宽的数据集（1005行* 590,718列，1.2G）。将这样大的数据集加载到pandas数据帧中会导致代码失败，完全是由于内存不足。

我知道Spark可能是处理大型数据集的Pandas的一个很好的替代品，但是在Pandas中是否存在任何可以在加载大数据时减少内存使用量的解决方案？

Answer 1

您可以使用

pandas.read_csv(filename, chunksize = chunksize)