使用stemDocument
包中的R tm
函数(请参阅下面的会话信息),我得到:
library(tm)
stemDocument("cmos")
[1] "cmos"
但是在Java中使用this实现时以及使用this"在线Porter stemmer"阻止" cmos"将是:" cmo"。
同样在原始文章中,步骤1a规则说:
Step 1a
SSES -> SS caresses -> caress
IES -> I ponies -> poni
ties -> ti
SS -> SS caress -> caress
S -> cats -> cat
意思是字符串" cmos"结束" s"应该被删除到" cmo&#34 ;,删除" s"。
那么为什么R&#39 {} stemDocument
功能行为不同?
> sessionInfo()
R version 3.1.2 (2014-10-31)
Platform: x86_64-w64-mingw32/x64 (64-bit)
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252 LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C LC_TIME=English_United States.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] tm_0.6 NLP_0.1-5
loaded via a namespace (and not attached):
[1] parallel_3.1.2 slam_0.1-32 SnowballC_0.5.1 tools_3.1.2