如何将NLTK词干恢复为正确的单词?

时间:2018-01-13 06:58:18

标签: python-3.x nltk porter-stemmer

在我使用NLTK PorterStemmer来阻止一个单词之后,这个单词有时会变成一个不完整的单词,例如" receive"成为"接受"在词干之后,这不是一个正确的词。

那么如何将NLTK PorterStemmer词干恢复为正确的词?

2 个答案:

答案 0 :(得分:0)

词干化的目的是将单词的屈折形式简化为基本形式,例如"接收"到"接受","欺骗"去欺骗" deceiv"甚至"不同的"到"不同"。

只要相关单词映射到相同的基本形式,词干就不需要与单词的形态根完全相同。这就是为什么NLTK PorterStemmer会删掉单词的结尾,有时这些单词就像" receiv"拼写不正确,但这仍然是预期的行为。

答案 1 :(得分:0)

简单的答案是“你不能”。

除非它是单词的唯一实例,并且你有原始文本要比较,否则几乎不可能恢复这个单词,因为单词的词干可以有许多变体从中减少。

例如,在这种情况下,“receiv”可能是“已接收”或“接收”或“接收者”或许多其他变种之一。

如果没有确切的背景,就无法猜出哪一个。遗憾。