我想知道是否有可能获得一个更长的单词列表,这些单词可以被词干。基本上,我们有一系列词干的清单,并且我们希望使用所有可能引起这种词干的词来组成一个新的语料库。例如,您可以执行以下操作:
import nltk
ps = nltk.stem.PorterStemmer()
print(ps.stem('rowing'))
'row'
print(ps.stem('rows'))
'row'
print(ps.stem('rowed'))
'row'
在我们的例子中,我们有单词row
,我们喜欢将其放在某个函数中并获得列表['rowing','rows', 'rowed']
(假定这些是唯一产生行的单词)。这是在nltk中实现的吗? hack的解决方案是将每个共同的结尾添加到我们拥有的每个词干中,但我们希望避免这样做。我在示例中使用了PorterStemmer,但如果此逆向查找适用于对我们有用的任何词干分析器。谢谢!