通过序列化或内存中的KV存储缓存Pandas Dataframe

时间:2015-10-15 14:05:46

标签: python caching pandas redis

哪种缓存pandas DataFrame对象的方法会提供最高性能?使用pickle将其存储到磁盘上的平面文件中,还是将其存储在像Redis这样的键值存储中?

1 个答案:

答案 0 :(得分:2)

我有一个约1 GB纯文本数据的DF。假设转储到磁盘总是比读取慢,我将HDF5写入性能与pickle进行了比较。 HDF5耗时35秒,而泡菜耗时190秒。所以,你可以考虑使用HDF5而不是pickle