为什么加载pickle对象所需的时间比加载文件要长得多?

时间:2014-06-18 00:15:53

标签: python serialization pickle

我注意到加载带有pickle的5000个对象的字典需要很长时间(分钟) - 但是加载5000个实体的文件的json需要很短的时间(秒)。我知道在一般情况下,对象会带来一些开销 - 而在OOP中,与跟踪这些对象相关的开销是使用它们的便利性的一部分。但是为什么加载酸洗物体需要很长时间。引擎盖下发生了什么?序列化对象与仅仅将数据写入文件相关的成本是多少?酸洗是否将对象恢复到内存中的相同位置? (也许将其他物体移开)。如果序列化加载速度较慢(至少是pickle),那么它的好处是什么?

2 个答案:

答案 0 :(得分:3)

假设您使用的是Python 2.7标准picklejson模块......

因此,您基本上将纯Python解串器与优化的C解串器进行比较。即使序列化格式相同,也不公平比较。

答案 1 :(得分:1)

对特定对象的序列化进行了速度比较,比较了JSON和pickle以及cPickle。每种格式的每个对象的速度都不同。 JSON通常比泡菜快,而且你经常听不到使用泡菜因为它不安全。安全问题以及一些速度滞后的原因是,pickle实际上并没有序列化非常多的数据 - 而是序列化一些数据和一堆指令,其中指令用于组装python对象。如果你曾经查看过dis模块,你会看到pickle用于每个对象的指令类型。像json一样,cPickle不是纯python,并且利用优化的C,所以它通常更快。

酸洗应占用较少的空间,通常比存储对象本身 - 通常,一些指令集可能非常大。 JSON往往更小......并且是人类可读的...但是,因为json将所有内容存储为人类可读的字符串......它不能像pickle和cPickle一样序列化许多不同类型的对象。因此,权衡是json的“安全性”(或不灵活性,取决于你的观点)和湖南可读性与泡菜相比,它可以序列化更广泛的对象。

选择pickle(超过json)的另一个好理由是你可以轻松扩展pickle,这意味着你可以注册一个新方法来序列化pickle不知道如何pickle的对象。 Python为您提供了几种方法...... __getstate____setstate__以及copy_reg方法。使用这些方法,您会发现人们已经扩展了pickle来序列化大多数python对象,例如dill

Pickling不会将对象恢复到同一个内存位置。但是,它确实将对象重建为与腌制时相同的状态(通常)。如果你想看看人们腌制的原因,请看一下:

Python serialization - Why pickle?

http://nbviewer.ipython.org/gist/minrk/5241793

http://matthewrocklin.com/blog/work/2013/12/05/Parallelism-and-Serialization/