我是Solr的新手。通过阅读Solr的wiki,我不明白WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别。他们真正的区别是什么?
答案 0 :(得分:26)
他们将分析的文本拆分为令牌的方式不同。
StandardTokenizer 基于以下内容执行此操作(取自lucene javadoc):
WhitespaceTokenizer 基于空格字符执行此操作:
WhitespaceTokenizer是一个在空白处划分文本的标记生成器。相邻的非空白字符序列形成令牌。
您应该选择最适合您应用的标记器。在任何情况下,您都必须使用相同的分析器/标记器进行索引和搜索!