在R中使用stemDocument {SnowBallC}时,我发现它会在单词的结尾处将字母'y'更改为字母'i',例如:
> stemDocument('sleepy', language='english')
[1] "sleepi"
我想知道我们怎样才能阻止这种干扰?
谢谢, 明
答案 0 :(得分:2)
hunspell包有一个更好的词干分析器:
> library(hunspell)
> hunspell_stem("sleepy", dict = "en_US")
[[1]]
[1] "sleepy"
> hunspell_analyze("sleepy", dict = "en_US")
[[1]]
[1] " st:sleepy"