python - 熊猫的句子索引范围

我有一个可运行的代码来获取使用Spacy输入的纯文本的字符索引：

_ = Task.Run(FooTask);

“ Hi”的输出示例为：

_ = FooTask();

问题是，现在我有了一个熊猫数据框，其中每个句子按句点分隔，都有自己的行并带有对应的ID：

test_sentence = "Hi, this is is a test"
test_sentence_res = nlp(test_sentence)
doc = test_sentence_res
sent_index = [(token.idx, token.idx + len(token.text)) for token in doc]

我想要每个句子的字符范围，但是对于相同ID的下一个句子，它不能重新启动，而应该是具有相同ID的所有字符的延续：

print(sent_index[0])
> 0, 1

熊猫的句子索引范围

0 个答案: