对于我的Solr服务器,某些查询字符串将使用亚洲语言,例如中文或日文。
对于此类查询字符串,Standard或Dismax请求处理程序是否有效?我的理解是标准和Dismax处理程序都按空格标记查询字符串。这对中国人或日本人不起作用吧?
在这种情况下,我应该使用哪个请求处理程序?如果我需要为这些语言设置自定义请求处理程序,我该怎么做?
感谢。
答案 0 :(得分:1)
这不是请求处理程序,而是语言分析器。
Lucene为此目的有一个CJK package。请参阅here for info on using it in Solr。
另请参阅this thread了解替代方案。
答案 1 :(得分:1)
您的查询将根据您查询的字段的分析器进行解析,无论您使用的是标准的Solr查询解析器还是DisMax查询解析器。
所以在这种情况下,正如Mauricio所说,问题在于如何将你的文本字符串分析成令牌。
对于中文和韩文,有CJK,它执行基本的N-Gram分析,将文本分解为字节对。这不是分析相关性和索引大小的最佳方式,但它确实有效。
对于日本人,我强烈推荐Solr和Lucene 3.6.0中新的Kuromoji形态分析仪。它使用字典和其他一些统计数据来标记为实际术语。这可以让你做各种非常优秀的品质
目前文档很少,所以请查看这些链接......