`spacy.Doc.from_bytes`一直窒息

时间:2017-08-06 12:34:03

标签: python spacy

我正在尝试序列化我的管道中的文档,以便我不必每次都重新计算它们。我有长达500,000个字符的英文文档以及元数据,因此我首先使用doc.to_bytes()然后选择序列化每个数据。但是当我尝试Doc.from_bytes时,我收到以下错误消息:

*** Exception: Buffer exhausted at 78974/1476394825 symbols read.

序列化代码:

data['doc'] = pickle.dumps(doc.to_bytes())

反序列化代码:

serializer = spacy.tokens.Doc(nlp.vocab)
serializer.from_bytes(data['doc'])

非常感谢!

0 个答案:

没有答案