如何使用hibernate search / lucene在索引期间去除空格和特殊字符

时间:2011-10-05 18:54:24

标签: java regex lucene indexing hibernate-search

我有一个字段,我想将其视为单个字符串,同时从中删除所有非字母数字字符。

例如,我想将“123 456.78-9”标记为“123456789”。为了做到这一点,我一直在尝试定义自己的分析器。根据solr页面,KeywordTokenizerFactory会将字符串视为单个术语,我可以使用PatternReplaceFilterFactory删除我想要的字符。

我在我的代码中使用以下定义,但它不起作用:

@AnalyzerDef(name = "strippinganalyzer",
    tokenizer = @TokenizerDef(factory = KeywordTokenizerFactory.class),
    filters = {
            @TokenFilterDef(factory = PatternReplaceFilterFactory.class,
                    params = { 
                        @org.hibernate.search.annotations.Parameter(name = "pattern", value="([^a-zA-Z0-9])"),
                        @org.hibernate.search.annotations.Parameter(name="replacement", value=""),
                        @org.hibernate.search.annotations.Parameter(name="replace", value="all")
                    }
            )
    })

这匹配“123 *”而不是“1234 *”等。我缺少什么?

由于

1 个答案:

答案 0 :(得分:3)

创建自定义分析器似乎可以解决问题:

public class AlphanumericAnalyzer extends Analyzer {

    @Override
    public TokenStream tokenStream(String fieldName, Reader reader) {

        return new TrimFilter(new PatternReplaceFilter(new LowerCaseFilter(new KeywordTokenizer(reader)), Pattern.compile("[^a-zA-Z0-9]"), "", true), true);
    }
}