我的Solr核心和StandardTokenizerFactory出现问题。 我需要创建数字维度,但StandardTokenizer会创建错误的数字。
e.g。我正在寻找" spanplattenschraube 4,5 50"。
在我的Solr Admin分析中,Tokenizer从中创建数字" 4.0"," 4.5.0"," 5"," 50.0 "," 50"
因此,作为第一个结果,我得到一个包含" spanplattenschraube 4,0"但不是" spanplattenschraube 4,5"。
如何防止StandardTokenizerFactory创建错误的数字,或者我的问题是否有更好的TokenizerFactory?
答案 0 :(得分:0)
您可以尝试使用简单的令牌工厂,例如
<强> solr.WhitespaceTokenizerFactory 强>
创建org.apache.lucene.analysis.WhitespaceTokenizer。
创建通过在空格上拆分而分隔的字符标记。
请阅读此处了解更多信息: https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory
如果您需要实现更多逻辑如何拆分单词等,您可以稍后使用
<强> solr.WordDelimiterFilterFactory 强>
WhitespaceTokenizerFactory + WordDelimiterFilterFactory
的组合