将数据帧加载到内存python

时间:2016-01-14 08:21:09

标签: python pandas

我有一个需要加载到数据帧的大文件。我需要做一段时间的工作。有没有办法保持在内存中加载,这样如果我的脚本失败,我将不需要再次加载它?

1 个答案:

答案 0 :(得分:1)

这里有example如何在运行之间将变量保存在内存中。

对于RAM以外的持久存储,我建议调查HDF5。它快速,简单,并在必要时允许查询:(see docs)

它支持.read_hdf().to_hdf()类似于_csv()方法,但速度要快得多。

包含查询(来自文档)的存储和检索的简单说明是:

df = DataFrame(dict(A=list(range(5)), B=list(range(5))))
df.to_hdf('store_tl.h5','table', append=True)
read_hdf('store_tl.h5', 'table', where = ['index>2'])