熊猫的句子索引范围

时间:2020-11-12 11:14:49

标签: python pandas indexing sentence

我有一个可运行的代码来获取使用Spacy输入的纯文本的字符索引:

_ = Task.Run(FooTask);

“ Hi”的输出示例为:

_ = FooTask();

问题是,现在我有了一个熊猫数据框,其中每个句子按句点分隔,都有自己的行并带有对应的ID:

test_sentence = "Hi, this is is a test"
test_sentence_res = nlp(test_sentence)
doc = test_sentence_res
sent_index = [(token.idx, token.idx + len(token.text)) for token in doc]

我想要每个句子的字符范围,但是对于相同ID的下一个句子,它不能重新启动,而应该是具有相同ID的所有字符的延续:

print(sent_index[0])
> 0, 1

0 个答案:

没有答案