删除solr中的重复字符

时间:2018-08-06 14:39:11

标签: solr lucene

我想应用一个过滤器来删除solr中的重复字符 例如(很酷-> col)

我查看了过滤器和令牌生成器,但我只能找到一个令牌删除器,该令牌删除了重复的令牌。

RemoveDuplicatesTokenFilterFactory

对字母/字符执行此操作的方式是什么

1 个答案:

答案 0 :(得分:1)

您可以将PatternReplaceCharFilterFactory与正则表达式一起使用,以互相删除所有相同的字符。替换字符串为$1(第一个匹配组),匹配模式为([a-zA-Z0-9])\1{1,}-任何字母,后跟相同字母(\1),至少一次({{1 }})。这也将{1,}替换为coool

Schema API的示例字段类型定义:

col