我正在尝试在POS标记中进行变形分析。
当我们通过传递英文单词作为参数调用它时,是否有任何工具(我可以在python或java脚本中调用)返回Root表单及其后缀。
如果我提供输入:'喜欢',我想得到输出:喜欢,ed
要获取给定英语单词的根表单,我尝试使用porter stemmer和snowball stemmer(在python脚本中)但它始终没有给出有效的根词,因为它只是去掉了后缀。
from nltk.stem.porter import *
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("ladies"))
print(porter_stemmer.stem("went"))
ladi
went
例如: 我把输入称为'女士' 但它以根形式返回'ladi',甚至不是英文单词。
有时词干分析器只是按原样返回输入词。 例如, 我给了输入'go',这些词干分析器以root形式返回'go'而不是'go'。
请建议我可以使用哪种工具来获取根表格和后缀。
答案 0 :(得分:2)
from nltk.stem.wordnet import WordNetLemmatizer
WNL = WordNetLemmatizer()
WNL.lemmatize('ladies')
WNL.lemmatize('went')
(我试图在这里找到别的东西,但我觉得代码不言自明?)