Question

我将通过示例展示：

library(data.table)
dt <- data.table(words = c("finance", "financial", "business"),
                  freq = c(123, 5, 4589))
dt <- dt[, words := SnowballC::wordStem(words, language = "english")]
View(dt)

words    freq
financ    123
financi    5
busi     4589

我认为词干会给我财务，财务和业务。我至少会期望金融和金融业有相同的基础。我试图将类似的单词组合在一起，它适用于某些单词，例如has和have both 有，但对于像上面这样的人似乎没有工作，除非我误解？

Answer 1

看起来你的结果是Porter词干分析器算法应该做的。

Documentation（步骤4）显示了在您的示例中使用后缀的词干示例：

（m> 1）AL - >复兴 - ＆gt; reviv

（m> 1）ANCE - ＆gt;津贴 - ＆gt;允许

如果你想对你的单词进行分组，那么你可能想在运行wordStem之前修剪它们，或者在词干之后使用字符串匹配函数（例如agrep）。

R wordstem砍字太多了

1 个答案: