Porter Stemmer algorithm将SS
转换为SS
的规则有什么意义?
答案 0 :(得分:3)
想象一下规则SS->SS
不在算法中。那么像caress
这样的单词根本就不会被识别出来,似乎算法无法做任何事情来将它减少到一个词干。但是,根据规则SS->SS
,词干分析师说:“我认识到caress
这个词,我将其缩减为caress
。我已经完成了”。替代方案是:“我什么都做不了”。当然这是虚构的工作,但重要的是它增加了限制器的精度。您可以看到正在进行算法测试时。如果这个规则不在限制器中,那么结果会有所不同(更糟)。查看单词列表[ridiculousness, caress]
Case 1.
算法中的规则SS->SS
。
词干:
caress (Step 1a)-> caress OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 100%
Case 2.
规则SS->SS
不在算法中。
词干:
caress -> fail OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 50%
从实际角度来看,这条规则并不重要。这只是一种形式主义。