标签: python pandas dataframe
我正在使用非常宽的数据集(1005行* 590,718列,1.2G)。将这样大的数据集加载到pandas数据帧中会导致代码失败,完全是由于内存不足。
我知道Spark可能是处理大型数据集的Pandas的一个很好的替代品,但是在Pandas中是否存在任何可以在加载大数据时减少内存使用量的解决方案?
答案 0 :(得分:2)
您可以使用
pandas.read_csv(filename, chunksize = chunksize)