Question

我想知道是否有方法或Python包可以让我使用大型数据集而无需将其写入RAM。

我也在使用pandas进行统计功能。

我需要访问整个数据集，因为许多统计函数需要整个数据集才能返回可靠的结果。

我在使用Windows 10的LiClipse上使用PyDev（带解释器Python 3.4）。

Answer 1

您也可以使用Sframes，Dask来支持大型数据集，或者使用pandas并在块中读取/迭代以最小化RAM使用率。另外值得一看blaze库

读入块：

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)

Answer 2

如果您只需要将磁盘虚拟化为大型RAM内存，则可以在系统上设置交换文件。然后，内核将根据需要自动交换页面，使用启发式方法确定哪些页面应该交换，哪些页面应保留在磁盘上。