如何为tokenizator指定其他令牌?

时间:2019-05-24 12:30:45

标签: python nlp token tokenize gensim

我想用gensim.utils.tokenize()标记文本。我想添加一些将被识别为单个标记的短语,例如:'New York', 'Long Island'

gensim是否可能?如果没有,还可以使用哪些其他库?

1 个答案:

答案 0 :(得分:0)

我找到了nltk的解决方案:

tokenizer = nltk.tokenize.mwe.MWETokenizer([('hors', "d'oeuvre")], separator=' ')
tokenizer.tokenize("An hors d'oeuvre tonight, sir?".split())

['An', "hors d'oeuvre", 'tonight,', 'sir?']