词干算法

时间:2012-11-25 14:42:13

标签: stemming porter-stemmer

我有一个关于Porter Stemmer算法的问题,我在网上研究过,

但是我找不到下划线和过度控制之间的区别。

并且Porter算法是否能够解决或过度使用?

你知道吗?

提前致谢

1 个答案:

答案 0 :(得分:1)

当截止后缀太长时会发生过度干扰,这会导致无关词的虚假匹配。

Understemming是相反的 - 例如一个干扰器,不会切断任何固有的底层。

我怀疑,Porter Stemmer会不时地为英语做两种类型的错误。请注意,其他语言的实现可能表现得非常不同(谈论Snowball,它具有用户为一堆语言提供的算法)。他们甚至可能在词干的语言定义上有所不同。