Question

solr / lucene中名为COLORS的文档字段包含以下单词组：

field1：蓝色/深红色/绿色 field2：蓝色/黄色/橙色 [...]

我需要对其进行分面搜索以获取所有颜色和每种颜色的计数。首先，我尝试了PatternTokenizerFactory，后跟stopword-list：

<analyzer>
        <tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.TrimFilterFactory" />
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords"
        enablePositionIncrements="true"
        />
</analyzer>

不幸的是，停用词列表接缝会被忽略。停用词显示在分面搜索结果中。

此SO question描述了同样的问题。不幸的是，发布的解决方案对我不起作用，因为我无法使用solr.StandardTokenizerFactory，因为标准的tokenizer也在whitspace上拆分了令牌。这意味着“暗红色”变成“黑暗”，“红色”变得错误。

有没有办法使用模式标记器？

向你寻求任何帮助！

Answer 1

您的信息：facet，模式标记符和停用词将在lucene / solr 4中起作用： - ）

PatternTokenizerFactory和停用词

1 个答案: