我正在使用NLTK来提取文本中的单词,并对这些单词进行一些基本分析。但是,出于显示目的,我想将这些词干转换回“根”一词(但不要转换成其开头的相同形式或词缀)。例如:
>>> import nltk
>>> from nltk.stem import SnowballStemmer
>>> sn = SnowballStemmer("english")
>>> sn.stem("happiness")
u'happi'
>>> sn.stem("happy")
u'happi'
# What I want to do:
>>> some_unstem_function("happi")
u'happy'
是否有执行此操作的功能或方法?
答案 0 :(得分:0)
您可以尝试使用不同的词干提取器。您可以建议的在线工具是this。 lancaster词干分析器可以帮助您完成示例,但您可以尝试使用其他词干分析器,并检查哪种词条对您的任务更好。
from nltk.stem import lancaster
sn = lancaster.LancasterStemmer()