形态学:获取给定英语单词的词根和后缀的工具

时间:2014-09-17 18:50:21

标签: nlp nltk wordnet stemming morphological-analysis

我正在尝试在POS标记中进行变形分析。

当我们通过传递英文单词作为参数调用它时,是否有任何工具(我可以在python或java脚本中调用)返回Root表单及其后缀。

例如:

如果我提供输入:'喜欢',我想得到输出:喜欢,ed

要获取给定英语单词的根表单,我尝试使用porter stemmer和snowball stemmer(在python脚本中)但它始终没有给出有效的根词,因为它只是去掉了后缀。

from nltk.stem.porter import *
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("ladies"))
print(porter_stemmer.stem("went"))

输出

ladi   
went

例如: 我把输入称为'女士' 但它以根形式返回'ladi',甚至不是英文单词。

有时词干分析器只是按原样返回输入词。 例如, 我给了输入'go',这些词干分析器以root形式返回'go'而不是'go'。

请建议我可以使用哪种工具来获取根表格和后缀。

1 个答案:

答案 0 :(得分:2)

from nltk.stem.wordnet import WordNetLemmatizer
WNL = WordNetLemmatizer()
WNL.lemmatize('ladies')
WNL.lemmatize('went')

(我试图在这里找到别的东西,但我觉得代码不言自明?)