为什么stemDocument将结尾'y'改为'i'?怎么阻止它?

时间:2016-04-04 00:45:32

标签: r nlp tm

在R中使用stemDocument {SnowBallC}时,我发现它会在单词的结尾处将字母'y'更改为字母'i',例如:

> stemDocument('sleepy', language='english')
[1] "sleepi"

我想知道我们怎样才能阻止这种干扰?

谢谢, 明

1 个答案:

答案 0 :(得分:2)

hunspell包有一个更好的词干分析器:

> library(hunspell)
> hunspell_stem("sleepy", dict = "en_US")
[[1]]
[1] "sleepy"

> hunspell_analyze("sleepy", dict = "en_US")
[[1]]
[1] " st:sleepy"