Lucene对俄语的支持很差。
RussianAnalyzer(lucene-contrib的一部分)质量很差。
Snowball的RussianStemmer模块更糟糕。它不能识别Unicode字符串中的俄语文本,显然假设必须使用Unicode和KOI8-R的某些奇怪组合。
你知道更好的解决方案吗?
答案 0 :(得分:4)
我的答案可能为时已晚,但是为了记录,我发现analyzers from AOT project比Lucene附带的更好。
答案 1 :(得分:3)
答案 2 :(得分:2)
如果其他所有方法都失败了,请使用Sphinx
答案 3 :(得分:2)
项目http://code.google.com/p/russianmorphology/已移至https://github.com/AKuznetsov/russianmorphology。请考虑该项目的新主机。
答案 4 :(得分:0)
这就是开源之美。你有源代码,所以如果当前的实现不适合你,你可以随时创建自己的,甚至更好的,扩展现有的。 一个好的开始将是“Lucene in Action”一书。