Solr StandardTokenizer创建错误的数字

时间:2016-07-07 10:05:19

标签: solr token tokenize

我的Solr核心和StandardTokenizerFactory出现问题。 我需要创建数字维度,但StandardTokenizer会创建错误的数字。

e.g。我正在寻找" spanplattenschraube 4,5 50"。

在我的Solr Admin分析中,Tokenizer从中创建数字" 4.0"," 4.5.0"," 5"," 50.0 "," 50"

因此,作为第一个结果,我得到一个包含" spanplattenschraube 4,0"但不是" spanplattenschraube 4,5"。

如何防止StandardTokenizerFactory创建错误的数字,或者我的问题是否有更好的TokenizerFactory?

1 个答案:

答案 0 :(得分:0)

您可以尝试使用简单的令牌工厂,例如

<强> solr.WhitespaceTokenizerFactory

创建org.apache.lucene.analysis.WhitespaceTokenizer。

创建通过在空格上拆分而分隔的字符标记。

请阅读此处了解更多信息: https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory

如果您需要实现更多逻辑如何拆分单词等,您可以稍后使用

<强> solr.WordDelimiterFilterFactory

WhitespaceTokenizerFactory + WordDelimiterFilterFactory

的组合