我可以将nlp.pipe的结果编译回大型文档吗?

时间:2019-04-30 18:30:17

标签: spacy

我想使用nlp.pipe的结果,就像它们是doc对象而不是生成器一样,但是我不知道这是否可能。我使用的文本太大,无法与nlp(text)进行依赖。

我正在使用匹配器,并且已经具有使用nlp.pipe生成器的工作代码。

for doc in nlp.pipe(ff):
    matches = matcher(doc)
    print(matches)
    for match_id, start, end in matches:
        string_id = nlp.vocab.strings[match_id]  
        span = doc[start:end] 
        identifier = string_id + ': ' + '\n'
        sentence = doc[start].sent.text
        out.write(identifier)
        out.write(sentence)
        out.write('\n')

我希望能够使用管道对文本进行预处理,以编制匹配项列表。然后,我想将它们与整个文本的匹配项作为一个新文档进行检查(只需运行令牌生成器,以便将整个内容存储在内存中)。这将节省处理时间,这样我就不必每次要运行新类型的匹配时都运行nlp.pipe()。我在考虑正确的方法吗?

0 个答案:

没有答案