我正在尝试从python中的字符串中提取单词taller
和shorter
的词干。
我做了以下事情:
>>> from nltk.stem.porter import *
>>> print(stemmer.stem('shorter'))
shorter
>>> print(stemmer.stem('taller'))
taller
由于某些原因,我没有得到tall
和short
这两个字。任何人都知道如何解决这个问题,或者可能指导另一种解决方案?
答案 0 :(得分:2)
有一些词干。这是一个:
>>> from nltk.stem.lancaster import LancasterStemmer
>>> stemmer = LancasterStemmer()
>>> stemmer.stem('shorter')
'short'
答案 1 :(得分:0)
>>> from nltk import stem
>>> s = 'short'; t = 'tall'
>>> porter = stem.porter.PorterStemmer()
>>> lancaster = stem.lancaster.LancasterStemmer()
>>> snowball = stem.snowball.EnglishStemmer()
>>> porter.stem(s)
u'short'
>>> porter.stem(t)
u'tall'
>>> lancaster.stem(s)
'short'
>>> lancaster.stem(t)
'tal'
>>> snowball.stem(s)
u'short'
>>> snowball.stem(t)
u'tall'