我有一个需要加载到数据帧的大文件。我需要做一段时间的工作。有没有办法保持在内存中加载,这样如果我的脚本失败,我将不需要再次加载它?
答案 0 :(得分:1)
这里有example如何在运行之间将变量保存在内存中。
对于RAM以外的持久存储,我建议调查HDF5
。它快速,简单,并在必要时允许查询:(see docs)。
它支持.read_hdf()
和.to_hdf()
类似于_csv()
方法,但速度要快得多。
包含查询(来自文档)的存储和检索的简单说明是:
df = DataFrame(dict(A=list(range(5)), B=list(range(5))))
df.to_hdf('store_tl.h5','table', append=True)
read_hdf('store_tl.h5', 'table', where = ['index>2'])