我想使用nlp.pipe的结果,就像它们是doc对象而不是生成器一样,但是我不知道这是否可能。我使用的文本太大,无法与nlp(text)进行依赖。
我正在使用匹配器,并且已经具有使用nlp.pipe生成器的工作代码。
for doc in nlp.pipe(ff):
matches = matcher(doc)
print(matches)
for match_id, start, end in matches:
string_id = nlp.vocab.strings[match_id]
span = doc[start:end]
identifier = string_id + ': ' + '\n'
sentence = doc[start].sent.text
out.write(identifier)
out.write(sentence)
out.write('\n')
我希望能够使用管道对文本进行预处理,以编制匹配项列表。然后,我想将它们与整个文本的匹配项作为一个新文档进行检查(只需运行令牌生成器,以便将整个内容存储在内存中)。这将节省处理时间,这样我就不必每次要运行新类型的匹配时都运行nlp.pipe()。我在考虑正确的方法吗?