在Porter Stemming算法中,包括诸如SS的身份规则的目的是什么? SS?

时间:2015-10-07 16:41:30

标签: algorithm information-retrieval stemming

Porter Stemmer algorithmSS转换为SS的规则有什么意义?

1 个答案:

答案 0 :(得分:3)

想象一下规则SS->SS不在算法中。那么像caress这样的单词根本就不会被识别出来,似乎算法无法做任何事情来将它减少到一个词干。但是,根据规则SS->SS,词干分析师说:“我认识到caress这个词,我将其缩减为caress。我已经完成了”。替代方案是:“我什么都做不了”。当然这是虚构的工作,但重要的是它增加了限制器的精度。您可以看到正在进行算法测试时。如果这个规则不在限制器中,那么结果会有所不同(更糟)。查看单词列表[ridiculousness, caress]

Case 1.算法中的规则SS->SS

词干:

caress (Step 1a)-> caress OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 100%

Case 2.规则SS->SS不在算法中。

词干:

caress -> fail OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 50%

从实际角度来看,这条规则并不重要。这只是一种形式主义。