应用错误收集

我正在尝试序列化我的管道中的文档，以便我不必每次都重新计算它们。我有长达500,000个字符的英文文档以及元数据，因此我首先使用doc.to_bytes()然后选择序列化每个数据。但是当我尝试Doc.from_bytes时，我收到以下错误消息：

*** Exception: Buffer exhausted at 78974/1476394825 symbols read.

序列化代码：

data['doc'] = pickle.dumps(doc.to_bytes())

反序列化代码：

serializer = spacy.tokens.Doc(nlp.vocab)
serializer.from_bytes(data['doc'])

非常感谢！