Question

我已经使用Lucene（版本4.3.0）完成了我自己的分析工具，用于删除不必要的数据和停用词。

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43, new CharArraySet(Version.LUCENE_43, stopWords, true));

一切都按预期工作，但我的语言是立陶宛语，所以我想保留立陶宛语符号：'ĄČĘĖĮŠŲŪŽąčęėįšųūž'。立陶宛语没有自己的分析器的主要问题.. 目前，单词被截断（没有ĄČĘĖĮŠŲŪŽąčęėįšųūž符号）。有任何建议如何覆盖格式方法/保留这些符号？我不需要使用词干工具。

Answer 1

我的不好..是StandardAnalyzer不是问题，我正在以错误的unicode格式（UTF-8）读取数据，该格式是用Windows-1257编写的。这产生了不必要的符号，这些符号被解释为垃圾。因此将其更改为正确的unicode解决了这个问题：）