标签: lucene tokenize stringtokenizer
Lucene的标准标记符是否会删除空格和空行?我一直在阅读API(StandardTokenizer),但未指定。默认情况下,令牌器可能会这样做,我不知道。
答案 0 :(得分:1)
是。 Lucene标记器从文档中获取可索引的术语,不包括空格。但它们确实在原始文档中保留了令牌的偏移量。
StandardTokenizer的文档中记录了这一点:
StandardTokenizer
(空格是标点符号。)