我正在使用Spacy,这是一个Python自然语言处理库,用于将原始文本解析为这种更复杂的面向对象格式,更具体地说是依赖树。
上面的操作需要一段时间才能执行:我需要加载一个非常昂贵的模型,然后解析大量的文本。我宁愿在后续执行中节省一些时间,以便在完成初始解析后更快地迭代处理数据。
我怎样才能"保存"第一次运行后这些结果,然后在后续运行中更快地重新加载这些预处理版本?
PICKLE:尝试使用pickle时,我会在将文档/标记类反序列化时遇到以下错误:
{{1}}
感谢。
答案 0 :(得分:0)
没有pickle解决方案,但我过去写过this script以将SpaCy输出存储为XML(NAF格式)。
根据您的管道,您还可以尝试以CoNLL格式存储输出(例如CoNLL-U)。这使得您的代码可以与许多其他NLP工具互操作,这很棒,因为您可以毫无问题地更改解析器。
我没有这方面的示例代码,但过程应该类似。