我想应用一个过滤器来删除solr中的重复字符 例如(很酷-> col)
我查看了过滤器和令牌生成器,但我只能找到一个令牌删除器,该令牌删除了重复的令牌。
RemoveDuplicatesTokenFilterFactory
对字母/字符执行此操作的方式是什么
答案 0 :(得分:1)
您可以将PatternReplaceCharFilterFactory与正则表达式一起使用,以互相删除所有相同的字符。替换字符串为$1
(第一个匹配组),匹配模式为([a-zA-Z0-9])\1{1,}
-任何字母,后跟相同字母(\1
),至少一次({{1 }})。这也将{1,}
替换为coool
。
Schema API的示例字段类型定义:
col