将字减少为共同词根/引理的最有效方法?

时间:2019-05-29 13:43:18

标签: nlp nltk

我正在寻找最有效的方法来将单词简化为可以匹配的通用词根-例如,“ holding”,“ hold”和“ holded”将全部匹配。更大的目标是尝试查找大量文本中单词列表的出现,包括单词的所有扩展名(ing,ation等),所有时态等。

WordNet lemmatizer似乎做得很好(例如,将以上所有内容简化为“保留”),但是我对其中一些不能简化为基本单词的事情感到惊讶。例如,在下面的代码中,想象力没有变成想象力,这似乎适用于许多“ ... ation”单词。

from nltk.stem import WordNetLemmatizer 

lemmatizer = WordNetLemmatizer() 
lemmatizer.lemmatize("imagination", "v")

我想知道为什么它不能像我在上面的示例中那样工作?有什么方法可以更好地实现我的目标,

抱歉,我对此很陌生!

0 个答案:

没有答案