Question

我想使用nlp.pipe的结果，就像它们是doc对象而不是生成器一样，但是我不知道这是否可能。我使用的文本太大，无法与nlp（text）进行依赖。

我正在使用匹配器，并且已经具有使用nlp.pipe生成器的工作代码。

for doc in nlp.pipe(ff):
    matches = matcher(doc)
    print(matches)
    for match_id, start, end in matches:
        string_id = nlp.vocab.strings[match_id]  
        span = doc[start:end] 
        identifier = string_id + ': ' + '\n'
        sentence = doc[start].sent.text
        out.write(identifier)
        out.write(sentence)
        out.write('\n')

我希望能够使用管道对文本进行预处理，以编制匹配项列表。然后，我想将它们与整个文本的匹配项作为一个新文档进行检查（只需运行令牌生成器，以便将整个内容存储在内存中）。这将节省处理时间，这样我就不必每次要运行新类型的匹配时都运行nlp.pipe（）。我在考虑正确的方法吗？

我可以将nlp.pipe的结果编译回大型文档吗？

0 个答案: