在我使用NLTK PorterStemmer来阻止一个单词之后,这个单词有时会变成一个不完整的单词,例如" receive"成为"接受"在词干之后,这不是一个正确的词。
那么如何将NLTK PorterStemmer词干恢复为正确的词?
答案 0 :(得分:0)
词干化的目的是将单词的屈折形式简化为基本形式,例如"接收"到"接受","欺骗"去欺骗" deceiv"甚至"不同的"到"不同"。
只要相关单词映射到相同的基本形式,词干就不需要与单词的形态根完全相同。这就是为什么NLTK PorterStemmer会删掉单词的结尾,有时这些单词就像" receiv"拼写不正确,但这仍然是预期的行为。
答案 1 :(得分:0)
简单的答案是“你不能”。
除非它是单词的唯一实例,并且你有原始文本要比较,否则几乎不可能恢复这个单词,因为单词的词干可以有许多变体从中减少。
例如,在这种情况下,“receiv”可能是“已接收”或“接收”或“接收者”或许多其他变种之一。
如果没有确切的背景,就无法猜出哪一个。遗憾。