我将通过示例展示:
library(data.table)
dt <- data.table(words = c("finance", "financial", "business"),
freq = c(123, 5, 4589))
dt <- dt[, words := SnowballC::wordStem(words, language = "english")]
View(dt)
words freq
financ 123
financi 5
busi 4589
我认为词干会给我财务,财务和业务。 我至少会期望金融和金融业有相同的基础。 我试图将类似的单词组合在一起,它适用于某些单词,例如has和have both 有,但对于像上面这样的人似乎没有工作,除非我误解?
答案 0 :(得分:1)
看起来你的结果是Porter词干分析器算法应该做的。
Documentation(步骤4)显示了在您的示例中使用后缀的词干示例:
(m> 1)AL - >复兴 - &gt; reviv
(m> 1)ANCE - &gt;津贴 - &gt;允许
如果你想对你的单词进行分组,那么你可能想在运行wordStem
之前修剪它们,或者在词干之后使用字符串匹配函数(例如agrep
)。