我已经使用Lucene(版本4.3.0)完成了我自己的分析工具,用于删除不必要的数据和停用词。
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43, new CharArraySet(Version.LUCENE_43, stopWords, true));
一切都按预期工作,但我的语言是 立陶宛语,所以我想保留立陶宛语符号:'ĄČĘĖĮŠŲŪŽąčęėįšųūž'。立陶宛语没有自己的分析器的主要问题.. 目前,单词被截断(没有ĄČĘĖĮŠŲŪŽąčęėįšųūž符号)。 有任何建议如何覆盖格式方法/保留这些符号?我不需要使用词干工具。
答案 0 :(得分:1)
我的不好..是StandardAnalyzer
不是问题,我正在以错误的unicode格式(UTF-8
)读取数据,该格式是用Windows-1257
编写的。这产生了不必要的符号,这些符号被解释为垃圾。因此将其更改为正确的unicode解决了这个问题:)