R wordstem砍字太多了

时间:2016-05-23 08:14:20

标签: r data.table text-mining word stemming

我将通过示例展示:

library(data.table)
dt <- data.table(words = c("finance", "financial", "business"),
                  freq = c(123, 5, 4589))
dt <- dt[, words := SnowballC::wordStem(words, language = "english")]
View(dt)

words    freq
financ    123
financi    5
busi     4589

我认为词干会给我财务,财务和业务。     我至少会期望金融和金融业有相同的基础。     我试图将类似的单词组合在一起,它适用于某些单词,例如has和have both     有,但对于像上面这样的人似乎没有工作,除非我误解?

1 个答案:

答案 0 :(得分:1)

看起来你的结果是Porter词干分析器算法应该做的。

Documentation(步骤4)显示了在您的示例中使用后缀的词干示例:

  

(m> 1)AL - >复兴 - &gt; reviv

     

(m> 1)ANCE - &gt;津贴 - &gt;允许

如果你想对你的单词进行分组,那么你可能想在运行wordStem之前修剪它们,或者在词干之后使用字符串匹配函数(例如agrep)。