为什么Porter Stemmer会产生一个可以再次阻止的字符串?

时间:2009-09-01 22:37:39

标签: stemming porter-stemmer

干( '苹果')= '苹果'
干( '苹果')= '申请'
干( '申请')= '申请'

这不是干扰算法中的一个缺陷吗?

(这是使用Porter Stemming Algorithm

2 个答案:

答案 0 :(得分:1)

这看起来更像是您正在使用的算法的实现中的错误。

当我按照the original algorithm中的步骤(从您链接到的页面),在步骤1a中删除“苹果”中的最后一个“s”,在步骤5a中删除“e”,所以词干“苹果”也是“appl”。

答案 1 :(得分:0)

我在这里http://preciselyconcise.com/apis_and_installations/smart_stemmer.php找到了一个带有字典支持的porter词干分析算法的实现。

这个API使用起来非常简单,并且对于拼写错误纠正了词干。我建议你使用这个词干分析器,因为这个API有一个词干的自动正确选项。