Question

对索引的文件'test.txt'进行处理，文件内容为：

word1.word2

我该怎样做才能使lucene将“word1.word2”视为两个单词“word1”和“word2”而不是“word1.word2”

Answer 1

使用分析器对Lucene进行索引会将您的单词转换为术语标记，（从技术上讲，它会将单词转换为形成文档的字段）

基本上你可以

1）创建一个StopAnalyzer并将带有停用词的HashSet传递为“。”（句点）这会对索引产生负面影响（因为you must use same analyzer while searching and indexing）

2）拆分。用空格和索引它们

Answer 2

这取决于您使用的Analyzer。简短的通用答案是使用SimpleAnalyzer使用LetterTokenizer。 LetterTokenizer以任何非字母分割，因此包括点字符。如果您有更具体的标记化要求，则必须编写自定义Analyzer类，其tokenStream方法返回自定义TokenStream或Tokenizer对象。

如何配置索引器，以便将“word1.word2”视为两个单词

2 个答案: