除了预定义的单词之外,是否可以对所有单词进行标记?

时间:2015-10-19 15:17:47

标签: python regex text nlp

我想对一个句子进行标记,但保留预定义的单词。 e.g。

"i went to university of abc and had a wonderful time there!"

["i", "went", "to", "university of abc", "and", "had", "a", "wonderful", "time", "there", "!"]

由于"university of abc"是预定义的词语。

我无法在任何NLTK令牌器中找到此类参数或控件。我能用什么方式来实现这个目标?谢谢!

2 个答案:

答案 0 :(得分:1)

您可以使用正则表达式正则表达式标记生成器并编写一个正则表达式,例如,拆分所有不属于"the university of abc."的空白区域,这将是一个麻烦,尽管 - hack-y方法可能只是通过文本或写一个用"the university of abc"取代"the-university-of-abc"的正则表达式或其他一些不会被分成单独的标记的字符串(取决于哪个)你正在使用的标记器)。

答案 1 :(得分:1)

而不是使用thisregex分割使用匹配:

(university of abc|\w+|[^\w\s]+)

RegEx Demo

您可以在正则表达式的LHS中添加更多预定义的单词,如上所示。