转换字符串'更短'短暂的'使用Python nltk干包

时间:2014-05-07 19:26:51

标签: python nltk stemming

我正在尝试从python中的字符串中提取单词tallershorter的词干。

我做了以下事情:

>>> from nltk.stem.porter import *
>>> print(stemmer.stem('shorter'))
shorter
>>> print(stemmer.stem('taller'))
taller

由于某些原因,我没有得到tallshort这两个字。任何人都知道如何解决这个问题,或者可能指导另一种解决方案?

2 个答案:

答案 0 :(得分:2)

有一些词干。这是一个:

>>> from nltk.stem.lancaster import LancasterStemmer
>>> stemmer = LancasterStemmer()
>>> stemmer.stem('shorter')
'short'

答案 1 :(得分:0)

>>> from nltk import stem
>>> s = 'short'; t = 'tall'
>>> porter = stem.porter.PorterStemmer()
>>> lancaster = stem.lancaster.LancasterStemmer()
>>> snowball = stem.snowball.EnglishStemmer()
>>> porter.stem(s)
u'short'
>>> porter.stem(t)
u'tall'
>>> lancaster.stem(s)
'short'
>>> lancaster.stem(t)
'tal'
>>> snowball.stem(s)
u'short'
>>> snowball.stem(t)
u'tall'