对索引的文件'test.txt'进行处理,文件内容为:
word1.word2
我该怎样做才能使lucene将“word1.word2”视为两个单词“word1”和“word2”而不是“word1.word2”
答案 0 :(得分:1)
使用分析器对Lucene进行索引会将您的单词转换为术语标记,(从技术上讲,它会将单词转换为形成文档的字段)
基本上你可以
1)创建一个StopAnalyzer并将带有停用词的HashSet传递为“。”(句点)这会对索引产生负面影响(因为you must use same analyzer while searching and indexing)
2)拆分。用空格和索引它们
答案 1 :(得分:0)
这取决于您使用的Analyzer
。简短的通用答案是使用SimpleAnalyzer
使用LetterTokenizer
。 LetterTokenizer
以任何非字母分割,因此包括点字符。
如果您有更具体的标记化要求,则必须编写自定义Analyzer类,其tokenStream
方法返回自定义TokenStream或Tokenizer对象。