在Python中使用硬盘而不是RAM

时间:2016-06-30 09:24:17

标签: python pandas memory pydev

我想知道是否有方法或Python包可以让我使用大型数据集而无需将其写入RAM。

我也在使用pandas进行统计功能。

我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可靠的结果。

我在使用Windows 10的LiClipse上使用PyDev(带解释器Python 3.4)。

2 个答案:

答案 0 :(得分:2)

您也可以使用SframesDask来支持大型数据集,或者使用pandas并在块中读取/迭代以最小化RAM使用率。 另外值得一看blaze

读入块:

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)

答案 1 :(得分:0)

如果您只需要将磁盘虚拟化为大型RAM内存,则可以在系统上设置交换文件。然后,内核将根据需要自动交换页面,使用启发式方法确定哪些页面应该交换,哪些页面应保留在磁盘上。