我正在尝试序列化我的管道中的文档,以便我不必每次都重新计算它们。我有长达500,000个字符的英文文档以及元数据,因此我首先使用doc.to_bytes()
然后选择序列化每个数据。但是当我尝试Doc.from_bytes
时,我收到以下错误消息:
*** Exception: Buffer exhausted at 78974/1476394825 symbols read.
序列化代码:
data['doc'] = pickle.dumps(doc.to_bytes())
反序列化代码:
serializer = spacy.tokens.Doc(nlp.vocab)
serializer.from_bytes(data['doc'])
非常感谢!