我正在试图弄清楚如何为我的应用程序最好地配置Solr。我正在索引(主要是德语)PDF文档,我正在使用dismax查询来查询Solr。
如果文档中包含单词“Firmenprofil”(德语复合词, - >'公司简介'),则只会在查询中返回该单词。但是,仅包含“Profil”的查询也需要返回此文档。
我下载了一个德语词典文件,并将DictionaryCompoundWordTokenFilter
应用于索引和查询分析器。
问题是,过滤器将查询分解为非常小部分(例如,在“Firmenprofil”的情况下为“pro”,然后导致包含诸如“之类”之类的单词的各种文档产品“退回......”。
我尝试从查询分析器中删除过滤器,导致solr根本找不到文档。我也尝试将查询过滤器保留在其中,但明确将onlyLongestMatch
- 选项设置为true,但这似乎根本没有任何效果。
答案 0 :(得分:1)
好吧,好像我的字典文件太大了(~20mb)。我用一个更紧凑的替换它现在它工作得很好......
答案 1 :(得分:0)
没有你的实际配置文件,它有点猜谜游戏。
您是否检查过profil是否属于字典?