原始文本中的子字符串索引

时间:2018-09-05 07:51:17

标签: regex python-3.x nlp string-matching

我正在使用 Python 处理自然语言处理问题之一。

我的问题: 让我们考虑一个字符串

str1 = "United, State is a very nice country"

我们对该字符串进行了预处理,并删除了所有特殊符号,URL,HTML内容等。现在,经过预处理的字符串将变成这样:

preprocessed_str = "United State is a very nice country"

然后,我们将此预处理的字符串传递给我的机器学习模型,该模型返回如下结果:

Country: United State

现在,我要获取原始字符串中“美国”的开始和结束索引。

我们使用 python的str.find()函数进行了尝试,但返回-1。

我将赞赏我们可以解决此问题的方法和解决方案。在此先感谢:)

0 个答案:

没有答案