PatternTokenizerFactory和停用词

时间:2011-06-23 15:36:57

标签: lucene solr facet faceted-search

solr / lucene中名为COLORS的文档字段包含以下单词组:

field1:蓝色/深红色/绿色 field2:蓝色/黄色/橙色 [...]

我需要对其进行分面搜索以获取所有颜色和每种颜色的计数。 首先,我尝试了PatternTokenizerFactory,后跟stopword-list:

<analyzer>
        <tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.TrimFilterFactory" />
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords"
        enablePositionIncrements="true"
        />
</analyzer>

不幸的是,停用词列表接缝会被忽略。停用词显示在分面搜索结果中。

SO question描述了同样的问题。不幸的是,发布的解决方案对我不起作用,因为我无法使用solr.StandardTokenizerFactory,因为标准的tokenizer也在whitspace上拆分了令牌。这意味着“暗红色”变成“黑暗”,“红色”变得错误。

有没有办法使用模式标记器?

向你寻求任何帮助!

1 个答案:

答案 0 :(得分:1)

您的信息:facet,模式标记符和停用词将在lucene / solr 4中起作用: - )