Lucene:如何在StandardAnalyzer中保留立陶宛语言符号?

时间:2013-12-24 21:20:36

标签: utf-8 lucene stop-words

我已经使用Lucene(版本4.3.0)完成了我自己的分析工具,用于删除不必要的数据和停用词。

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43, new CharArraySet(Version.LUCENE_43, stopWords, true));

一切都按预期工作,但我的语言是 立陶宛语,所以我想保留立陶宛语符号:'ĄČĘĖĮŠŲŪŽąčęėįšųūž'。立陶宛语没有自己的分析器的主要问题.. 目前,单词被截断(没有ĄČĘĖĮŠŲŪŽąčęėįšųūž符号)。 有任何建议如何覆盖格式方法/保留这些符号?我不需要使用词干工具。

1 个答案:

答案 0 :(得分:1)

我的不好..是StandardAnalyzer不是问题,我正在以错误的unicode格式(UTF-8)读取数据,该格式是用Windows-1257编写的。这产生了不必要的符号,这些符号被解释为垃圾。因此将其更改为正确的unicode解决了这个问题:)