我正在使用 DictionaryCompoundWordTokenFilterFactory 。我有荷兰人compound_words_dict_nl.txt ,其中包含以下字词:
的笔
插槽
knop
我使用这个字典来划分单词 penslot 和 knoppen 。
问题是,我不希望将knoppen这个词视为复合词。它是knop的复数。过滤器将它分配到knop和pen,它将返回带有knop和pen的结果。但是knoppen这个词不应该产生笔。只是一个词干版本 - knop(我用分析仪中的一个词干过滤器覆盖)。
如果我从字典中删除笔字,它只会添加字槽作为标记,我不想要它用于笔画案例。
是否有针对此类问题的简单解决方法,还是需要创建一些自定义过滤器?