solr / lucene中名为COLORS的文档字段包含以下单词组:
field1:蓝色/深红色/绿色 field2:蓝色/黄色/橙色 [...]
我需要对其进行分面搜索以获取所有颜色和每种颜色的计数。 首先,我尝试了PatternTokenizerFactory,后跟stopword-list:
<analyzer>
<tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.TrimFilterFactory" />
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords"
enablePositionIncrements="true"
/>
</analyzer>
不幸的是,停用词列表接缝会被忽略。停用词显示在分面搜索结果中。
此SO question描述了同样的问题。不幸的是,发布的解决方案对我不起作用,因为我无法使用solr.StandardTokenizerFactory,因为标准的tokenizer也在whitspace上拆分了令牌。这意味着“暗红色”变成“黑暗”,“红色”变得错误。
有没有办法使用模式标记器?
向你寻求任何帮助!
答案 0 :(得分:1)
您的信息:facet,模式标记符和停用词将在lucene / solr 4中起作用: - )