如何将大型通用Python对象拆分为多个块

时间:2018-12-04 12:13:00

标签: python object split pickle large-data

我有一个大型通用Python对象,对此我一无所知。 我需要将此对象分成较小的块,以满足存储需求。

希望有人可以提供帮助,欧莫尔。

1 个答案:

答案 0 :(得分:0)

pickle,然后拆分结果数据。

您不能仅序列化对象的“一部分”,因为在一般情况下没有“对象的一部分”这样的东西,您需要了解其内部结构才能将其拆分为多个部分-你说你没有。

但是,您可以使用pickle.dump(写入类似文件的对象),并将其传递给自定义的类似文件的对象,该对象将拆分结果数据,而不是在接收数据时将其拆分。

例如这是一个类似文件的对象,可以将数据写入2GiB块中的文件中(在示例中,我将块大小设置为4MiB):

class SplitFile(object):
    def __init__(self, name_pattern, chunk_size=2*1024**3):
        self.name_pattern = name_pattern
        self.chunk_size = chunk_size
        self.file = None
        self.part = -1
        self.offset = None

    def write(self, bytes):
        if not self.file:  self._split()
        while True:
            l = len(bytes)
            wl = min(l, self.chunk_size - self.offset)
            self.file.write(bytes[:wl])
            self.offset += wl
            if wl == l: break
            self._split()
            bytes = bytes[wl:]

    def _split(self):
        if self.file:  self.file.close()
        self.part += 1
        self.file = open(self.name_pattern % self.part, "wb")
        self.offset = 0

    def close(self):
        if self.file:  self.file.close()

    def __del__(self):
        self.close()

import random
big_object = [random.random() for _ in range(1000000)]
import pickle
dest = SplitFile("data.part%02d.pickle", 4*1024**2)
pickle.dump(big_object, dest)

运行示例后,我们将:

$ ls -l *.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec  4 16:02 data.part00.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec  4 16:02 data.part01.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec  4 16:02 data.part02.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec  4 16:02 data.part03.pickle
-rwxrwx---+ 1 Sasha None 4194304 Dec  4 16:02 data.part04.pickle
-rwxrwx---+ 1 Sasha None  294912 Dec  4 16:02 data.part05.pickle