WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别

时间:2012-06-25 03:00:28

标签: solr tokenize

我是Solr的新手。通过阅读Solr的wiki,我不明白WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别。他们真正的区别是什么?

1 个答案:

答案 0 :(得分:26)

他们将分析的文本拆分为令牌的方式不同。

StandardTokenizer 基于以下内容执行此操作(取自lucene javadoc):

  • 在标点字符处拆分单词,删除标点符号。 但是,没有空格的点被认为是一部分 一个令牌。
  • 在连字符上拆分单词,除非中有一个数字 令牌,在这种情况下,整个令牌被解释为产品 数字并没有拆分。
  • 识别电子邮件地址和互联网 主机名作为一个标记。

WhitespaceTokenizer 基于空格字符执行此操作:

WhitespaceTokenizer是一个在空白处划分文本的标记生成器。相邻的非空白字符序列形成令牌。

您应该选择最适合您应用的标记器。在任何情况下,您都必须使用相同的分析器/标记器进行索引和搜索!