标签: python pandas memory pydev
我想知道是否有方法或Python包可以让我使用大型数据集而无需将其写入RAM。
我也在使用pandas进行统计功能。
我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可靠的结果。
我在使用Windows 10的LiClipse上使用PyDev(带解释器Python 3.4)。
答案 0 :(得分:2)
您也可以使用Sframes,Dask来支持大型数据集,或者使用pandas并在块中读取/迭代以最小化RAM使用率。 另外值得一看blaze库
读入块:
chunksize = 10 ** 6 for chunk in pd.read_csv(filename, chunksize=chunksize): process(chunk)
答案 1 :(得分:0)
如果您只需要将磁盘虚拟化为大型RAM内存,则可以在系统上设置交换文件。然后,内核将根据需要自动交换页面,使用启发式方法确定哪些页面应该交换,哪些页面应保留在磁盘上。