我有一个大型通用Python对象,对此我一无所知。 我需要将此对象分成较小的块,以满足存储需求。
希望有人可以提供帮助,欧莫尔。
答案 0 :(得分:0)
pickle
,然后拆分结果数据。
您不能仅序列化对象的“一部分”,因为在一般情况下没有“对象的一部分”这样的东西,您需要了解其内部结构才能将其拆分为多个部分-你说你没有。
但是,您可以使用pickle.dump
(写入类似文件的对象),并将其传递给自定义的类似文件的对象,该对象将拆分结果数据,而不是在接收数据时将其拆分。
例如这是一个类似文件的对象,可以将数据写入2GiB块中的文件中(在示例中,我将块大小设置为4MiB):
class SplitFile(object):
def __init__(self, name_pattern, chunk_size=2*1024**3):
self.name_pattern = name_pattern
self.chunk_size = chunk_size
self.file = None
self.part = -1
self.offset = None
def write(self, bytes):
if not self.file: self._split()
while True:
l = len(bytes)
wl = min(l, self.chunk_size - self.offset)
self.file.write(bytes[:wl])
self.offset += wl
if wl == l: break
self._split()
bytes = bytes[wl:]
def _split(self):
if self.file: self.file.close()
self.part += 1
self.file = open(self.name_pattern % self.part, "wb")
self.offset = 0
def close(self):
if self.file: self.file.close()
def __del__(self):
self.close()
import random
big_object = [random.random() for _ in range(1000000)]
import pickle
dest = SplitFile("data.part%02d.pickle", 4*1024**2)
pickle.dump(big_object, dest)
运行示例后,我们将:
$ ls -l *.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec 4 16:02 data.part00.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec 4 16:02 data.part01.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec 4 16:02 data.part02.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec 4 16:02 data.part03.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec 4 16:02 data.part04.pickle
-rwxrwx---+ 1 Sasha None 294912 Dec 4 16:02 data.part05.pickle