德语和荷兰语等德语语言经常粘在一起。例如,“质量控制”变为“Qualitätskontrolle”(de)或“kwaliteitscontrole”(nl)。
如何让Lucene独立搜索这些粘合词?即如果我搜索“qualität”或“kontrolle”,我想找到“Qualitätskontrolle”。
似乎有一个过滤器:DictionaryCompoundWordTokenFilter。但是如何将它与DutchAnalyzer和GermanAnalyzer联系起来进行索引和搜索?
答案 0 :(得分:1)
您必须编写自己的分析器以包含过滤器。
例如Subclass GermanAnalyzer或者从头开始编写一个并将DictionaryCompoundWordTokenFilter包含在过滤器列表中。