令牌器会删除空格吗?

时间:2012-05-23 07:38:09

标签: lucene tokenize stringtokenizer

Lucene的标准标记符是否会删除空格和空行?我一直在阅读API(StandardTokenizer),但未指定。默认情况下,令牌器可能会这样做,我不知道。

1 个答案:

答案 0 :(得分:1)

是。 Lucene标记器从文档中获取可索引的术语,不包括空格。但它们确实在原始文档中保留了令牌的偏移量。

StandardTokenizer的文档中记录了这一点:

  • 在标点字符处拆分单词,删除标点符号。

(空格是标点符号。)