我有一个使用solr.SnowballPorterFilterFactory
的solr架构。当我做管理/分析时
我看到,对于查询“iphone”,在SnowballPorterFilterFactory
后我得到“iphon”,即使架构中指定的文件( protwords_ro.txt )为空。
我删除了过滤器,术语文字仍为“iphone”。由于我的 protwords_ro.txt 文件是空的,我现在不需要那个过滤器,但我想知道为什么会发生这种情况。
答案 0 :(得分:0)
实际上,这个过滤器用于堵塞。
在语言形态学和信息检索中,词干化是将变形(或有时衍生)单词减少到词干,基础或词根形式的过程 - 通常是书面文字形式
因此,例如对于单词resume,此过滤器将提供resum等。
此外,
Snowball词干分析器依赖算法并认为相当积极
我认为这就是为什么你得到iphon
的原因,即使你的文本文件是空的。