如果protword文件为空,为什么solr.SnowballPorterFilterFactory会删除搜索词的最后一个字母?

时间:2014-03-31 14:39:26

标签: solr

我有一个使用solr.SnowballPorterFilterFactory的solr架构。当我做管理/分析时 我看到,对于查询“iphone”,在SnowballPorterFilterFactory后我得到“iphon”,即使架构中指定的文件( protwords_ro.txt )为空。

我删除了过滤器,术语文字仍为“iphone”。由于我的 protwords_ro.txt 文件是空的,我现在不需要那个过滤器,但我想知道为什么会发生这种情况。

1 个答案:

答案 0 :(得分:0)

实际上,这个过滤器用于堵塞。

  

在语言形态学和信息检索中,词干化是将变形(或有时衍生)单词减少到词干,基础或词根形式的过程 - 通常是书面文字形式

因此,例如对于单词resume,此过滤器将提供resum等。

此外,

  

Snowball词干分析器依赖算法并认为相当积极

我认为这就是为什么你得到iphon的原因,即使你的文本文件是空的。