用Kraaij-Pohlmann算法干扰荷兰语

时间:2017-06-25 11:58:15

标签: r stemming

我试图在R语料库中阻止荷兰语单词。我找到了 SnowballC 包,但这对荷兰人来说似乎并不好用。例如:

wordStem(c("huis", "huizen", "huisje", "huisjes"), language = "porter")
[1] "huis"    "huiz"    "huisj"   "huisjes"

wordStem(c("huis", "huizen", "huisje", "huisjes"), language = "dutch")
[1] "hui"    "huizen" "huisj"  "huisj" 

经过一番搜索,我发现Kraaij-Pohlmann算法可能更适合荷兰语。有没有办法在R中实现这个?到目前为止,我还没有能够找到这样做的包/脚本。其他提示和想法也欢迎!

0 个答案:

没有答案