如何在pandas中保存整个工作区(如RData)

时间:2016-02-17 19:08:08

标签: python r numpy pandas hdf

从R开始在pandas中我们对R的生产使用是将大量数据保存为.RData(通过save_image)到磁盘并在下次加载工作区时使用它。似乎没有真正的解决方案将整个pandas工作区保存到磁盘。

有Dill,但看起来不值得生产。 这是Pandas / Numpy的反模式吗?我认为应该有类似HDF5(或最近宣布的Apache Arrow)的东西来快照运行状态。

请注意我并不是在谈论休眠 - 我只是在这里引用数据结构,而不是运行代码状态或类似的东西。

此外有关IRC的讨论提及:

  • 您可以使用hdf5,但在这种情况下,在使用它之前总是往返它,即使只是计算它 - 不幸的是,to_hdf / read_hdf不一定会给你开始的数据帧
  • pickle是不可判断的,非版本兼容的,仅限Python,不安全,不可能,以及可能不正确的给出正确的数据

所以它的糟糕方式?

1 个答案:

答案 0 :(得分:0)

您可以将整个脚本放在一个类中,然后使用pickle来序列化和反序列化该对象。它可能与R中的工作空间实例完全不同,但它是我现在能想到的最接近的东西。