Lucene和Lucene.Net的俄语分析器

时间:2008-09-15 15:23:04

标签: java .net lucene

Lucene对俄语的支持很差。

RussianAnalyzer(lucene-contrib的一部分)质量很差。

Snowball的RussianStemmer模块更糟糕。它不能识别Unicode字符串中的俄语文本,显然假设必须使用Unicode和KOI8-R的某些奇怪组合。

你知道更好的解决方案吗?

5 个答案:

答案 0 :(得分:4)

我的答案可能为时已晚,但是为了记录,我发现analyzers from AOT project比Lucene附带的更好。

答案 1 :(得分:3)

答案 2 :(得分:2)

如果其他所有方法都失败了,请使用Sphinx

答案 3 :(得分:2)

答案 4 :(得分:0)

这就是开源之美。你有源代码,所以如果当前的实现不适合你,你可以随时创建自己的,甚至更好的,扩展现有的。 一个好的开始将是“Lucene in Action”一书。