我为NLP使用2个模块,一个是nltk,另一个是hunspell。使用hunspell的原因是我有后缀并附加了需要遵循的规则。
from nltk.stem.porter import *
stemmer = PorterStemmer()
stemmer.stem('ladies')
ladi
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('ladies')
女士
nltk模块如上所示正常工作。但是hunspell模块似乎仅支持lemmatization,无法返回词干形式。
import hunspell
hobj = hunspell.HunSpell('en_US.dic', 'en_US.aff')
hobj.stem('ladies')
这将返回“ 女士”,而不是预期的“ ladi”。有什么方法可以使用hunspell模块返回单词的词干形式吗?