如何配置索引器,以便将“word1.word2”视为两个单词

时间:2011-03-21 12:30:26

标签: java indexing lucene

对索引的文件'test.txt'进行处理,文件内容为:

word1.word2

我该怎样做才能使lucene将“word1.word2”视为两个单词“word1”和“word2”而不是“word1.word2”

2 个答案:

答案 0 :(得分:1)

使用分析器对Lucene进行索引会将您的单词转换为术语标记,(从技术上讲,它会将单词转换为形成文档的字段)

基本上你可以

1)创建一个StopAnalyzer并将带有停用词的HashSet传递为“。”(句点)这会对索引产生负面影响(因为you must use same analyzer while searching and indexing

2)拆分。用空格和索引它们

答案 1 :(得分:0)

这取决于您使用的Analyzer。简短的通用答案是使用SimpleAnalyzer使用LetterTokenizerLetterTokenizer以任何非字母分割,因此包括点字符。 如果您有更具体的标记化要求,则必须编写自定义Analyzer类,其tokenStream方法返回自定义TokenStreamTokenizer对象。