Spacy:如何从句子标记化文本创建文档?

时间:2019-01-14 11:55:09

标签: python spacy

我有已经被句子标记的文本,并且想知道如何从中制作一个伪造的文档?

1 个答案:

答案 0 :(得分:0)

经过一番研究,我提出了以下简单的解决方案:

nlp = spacy.load('en')
sents = [['sentence', 'one'], ['sentence', 'two']]
doc = nlp.tokenizer.tokens_from_list([t for s in sents for t in s])
for t in doc:
    t.is_sent_start = False
i = 0
for s in sents:
    doc[i].is_sent_start = True
    i += len(s)