我要求根据特定的单词列表对句子中的单词进行标记。
wordlist = ["nlp - nltk", "CIFA R12 - INV"]
示例输入:这是nlp - nltk CIFA R12 - INV
的示例文本。
在使用word_tokenize(Exapmle-input)时,我需要nlp - nltk
作为一个标记,CIFA R12 - INV
作为另一个标记。这是否可能而不是将nlp
-
CIFA
作为不同的令牌?
答案 0 :(得分:1)
对于将来来这里的人: -
经过一些阅读,我发现nltk.tokenize.mwe模块是实现我上述要求的选项。
参考:http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe