应用错误收集

时间：2016-07-07 10:05:19

标签： solr token tokenize

我的Solr核心和StandardTokenizerFactory出现问题。我需要创建数字维度，但StandardTokenizer会创建错误的数字。

e.g。我正在寻找＆＃34; spanplattenschraube 4,5 50＆＃34;。

在我的Solr Admin分析中，Tokenizer从中创建数字＆＃34; 4.0＆＃34;，＆＃34; 4.5.0＆＃34;，＆＃34; 5＆＃34;，＆＃34; 50.0 ＆＃34;，＆＃34; 50＆＃34;

因此，作为第一个结果，我得到一个包含＆＃34; spanplattenschraube 4,0＆＃34;但不是＆＃34; spanplattenschraube 4,5＆＃34;。

如何防止StandardTokenizerFactory创建错误的数字，或者我的问题是否有更好的TokenizerFactory？

答案 0 :(得分：0)

您可以尝试使用简单的令牌工厂，例如

<强> solr.WhitespaceTokenizerFactory

创建org.apache.lucene.analysis.WhitespaceTokenizer。

创建通过在空格上拆分而分隔的字符标记。

如果您需要实现更多逻辑如何拆分单词等，您可以稍后使用

<强> solr.WordDelimiterFilterFactory

WhitespaceTokenizerFactory + WordDelimiterFilterFactory

的组合