Lucene / Solr:请求处理程序用于中文或日文的查询字符串?

时间:2011-03-17 06:03:02

标签: internationalization solr lucene full-text-search

对于我的Solr服务器,某些查询字符串将使用亚洲语言,例如中文或日文。

对于此类查询字符串,Standard或Dismax请求处理程序是否有效?我的理解是标准和Dismax处理程序都按空格标记查询字符串。这对中国人或日本人不起作用吧?

在这种情况下,我应该使用哪个请求处理程序?如果我需要为这些语言设置自定义请求处理程序,我该怎么做?

感谢。

2 个答案:

答案 0 :(得分:1)

这不是请求处理程序,而是语言分析器。

Lucene为此目的有一个CJK package。请参阅here for info on using it in Solr

另请参阅this thread了解替代方案。

答案 1 :(得分:1)

您的查询将根据您查询的字段的分析器进行解析,无论您使用的是标准的Solr查询解析器还是DisMax查询解析器。

所以在这种情况下,正如Mauricio所说,问题在于如何将你的文本字符串分析成令牌。

对于中文和韩文,有CJK,它执行基本的N-Gram分析,将文本分解为字节对。这不是分析相关性和索引大小的最佳方式,但它确实有效。

对于日本人,我强烈推荐Solr和Lucene 3.6.0中新的Kuromoji形态分析仪。它使用字典和其他一些统计数据来标记为实际术语。这可以让你做各种非常优秀的品质

目前文档很少,所以请查看这些链接......