Question

我需要序列化DataFrame并通过网络发送它们。出于安全考虑，我不能使用泡菜。

下一个最快的方法是什么？我在v0.13中对msgpacks很感兴趣，但除非我做错了，性能似乎比pickle差得多。

In [107]: from pandas.io.packers import pack

In [108]: df = pd.DataFrame(np.random.rand(1000, 100))

In [109]: %timeit buf = pack(df)
100 loops, best of 3: 15.5 ms per loop

In [110]: import pickle

In [111]: %timeit buf = pickle.dumps(df)
1000 loops, best of 3: 241 µs per loop

到目前为止，我发现的最好的方法是使用array.tostring（）序列化同源numpy数组（df.as_blocks（）很方便）并从中重建DataFrame。性能与泡菜相当。

然而，使用这种方法，我被迫将dtype = object的列（即，至少包含字符串的任何内容）转换为完全字符串，因为Numpy的fromstring（）无法反序列化dtype = object。 Pickle设法保留对象列中的混合类型（它似乎包括pickle输出中的一些函数）。

Answer 1

现在这个PR很有竞争力：https://github.com/pydata/pandas/pull/5498（很快会合并为0.13）

In [1]: from pandas.io.packers import pack

In [2]: import cPickle as pkl

In [3]: df = pd.DataFrame(np.random.rand(1000, 100))

以上示例

In [6]: %timeit buf = pack(df)
1000 loops, best of 3: 492 µs per loop

In [7]: %timeit buf = pkl.dumps(df,pkl.HIGHEST_PROTOCOL)
1000 loops, best of 3: 681 µs per loop

更大的框架

In [8]: df = pd.DataFrame(np.random.rand(100000, 100))

In [9]:  %timeit buf = pack(df)
10 loops, best of 3: 192 ms per loop

In [10]: %timeit buf = pkl.dumps(df,pkl.HIGHEST_PROTOCOL)
10 loops, best of 3: 119 ms per loop

另一种选择是使用内存中的hdf文件

见：http://pytables.github.io/cookbook/inmemory_hdf5_files.html;在pandas中还没有支持添加驱动程序arg（可以通过简单的猴子修补来完成）。

ctable的另一种可能性，请参阅https://github.com/FrancescAlted/carray。但是在pandas ATM中不支持。

除了to_pickle之外，序列化DataFrame的最快方法是什么？

1 个答案: