R tm包stemDocument函数行为与原始Porter词干算法

时间:2015-06-15 09:49:45

标签: r algorithm tm porter-stemmer

使用stemDocument包中的R tm函数(请参阅下面的会话信息),我得到:

library(tm)
stemDocument("cmos")
[1] "cmos"

但是在Java中使用this实现时以及使用this"在线Porter stemmer"阻止" cmos"将是:" cmo"。

同样在原始文章中,步骤1a规则说:

Step 1a

SSES -> SS                         caresses  ->  caress
IES  -> I                          ponies    ->  poni
                                   ties      ->  ti
SS   -> SS                         caress    ->  caress
S    ->                            cats      ->  cat

意思是字符串" cmos"结束" s"应该被删除到" cmo&#34 ;,删除" s"。

那么为什么R&#39 {} stemDocument功能行为不同?

> sessionInfo()
R version 3.1.2 (2014-10-31)
Platform: x86_64-w64-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252    LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C                           LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] tm_0.6    NLP_0.1-5

loaded via a namespace (and not attached):
[1] parallel_3.1.2  slam_0.1-32     SnowballC_0.5.1 tools_3.1.2

0 个答案:

没有答案