应用错误收集

时间：2011-03-17 06:03:02

标签： internationalization solr lucene full-text-search

对于我的Solr服务器，某些查询字符串将使用亚洲语言，例如中文或日文。

对于此类查询字符串，Standard或Dismax请求处理程序是否有效？我的理解是标准和Dismax处理程序都按空格标记查询字符串。这对中国人或日本人不起作用吧？

在这种情况下，我应该使用哪个请求处理程序？如果我需要为这些语言设置自定义请求处理程序，我该怎么做？

感谢。

答案 0 :(得分：1)

这不是请求处理程序，而是语言分析器。

另请参阅this thread了解替代方案。

答案 1 :(得分：1)

您的查询将根据您查询的字段的分析器进行解析，无论您使用的是标准的Solr查询解析器还是DisMax查询解析器。

所以在这种情况下，正如Mauricio所说，问题在于如何将你的文本字符串分析成令牌。

对于中文和韩文，有CJK，它执行基本的N-Gram分析，将文本分解为字节对。这不是分析相关性和索引大小的最佳方式，但它确实有效。

对于日本人，我强烈推荐Solr和Lucene 3.6.0中新的Kuromoji形态分析仪。它使用字典和其他一些统计数据来标记为实际术语。这可以让你做各种非常优秀的品质

目前文档很少，所以请查看这些链接......