我有一个关于Porter Stemmer算法的问题,我在网上研究过,
但是我找不到下划线和过度控制之间的区别。
并且Porter算法是否能够解决或过度使用?
你知道吗?提前致谢
答案 0 :(得分:1)
当截止后缀太长时会发生过度干扰,这会导致无关词的虚假匹配。
Understemming是相反的 - 例如一个干扰器,不会切断任何固有的底层。
我怀疑,Porter Stemmer会不时地为英语做两种类型的错误。请注意,其他语言的实现可能表现得非常不同(谈论Snowball,它具有用户为一堆语言提供的算法)。他们甚至可能在词干的语言定义上有所不同。