我试图在R语料库中阻止荷兰语单词。我找到了 SnowballC 包,但这对荷兰人来说似乎并不好用。例如:
wordStem(c("huis", "huizen", "huisje", "huisjes"), language = "porter")
[1] "huis" "huiz" "huisj" "huisjes"
wordStem(c("huis", "huizen", "huisje", "huisjes"), language = "dutch")
[1] "hui" "huizen" "huisj" "huisj"
经过一番搜索,我发现Kraaij-Pohlmann算法可能更适合荷兰语。有没有办法在R中实现这个?到目前为止,我还没有能够找到这样做的包/脚本。其他提示和想法也欢迎!