我很好奇是否有通用分析仪可以很好地处理/分析可能使用不同语言的文本。对于某些任务,进行适当的多语言搜索(例如将字段name
拆分为name.english
,name.french
等)似乎有点矫枉过正。
是否有一个分析器可以去除后缀(例如“狗” - >“狗”)并且不只是英语工作?我真的不在乎它是否进行语言检测等,并且只是在进行浪漫与浪漫德国语言可能已经足够好了。或者,质量的损失是否严重到足以使用特定于语言的分析器和特定于语言的查询?
答案 0 :(得分:3)
您最好的选择是使用icu分析仪。它们对于规范化很有用,但对于词干这样具有特定语言特性的东西不太有用。
此外,可以使用单独的语言字段,并根据该字段的值使用不同的分析器。因此,您可以将两种方法结合起来并回退到icu tokenizer,并使用专业分析器支持您关心的语言:http://www.elasticsearch.org/guide/reference/mapping/analyzer-field/
您可能希望观看最近柏林流行语会议中有关多语言支持的演示文稿:http://www.youtube.com/watch?v=QI0XEshXygo。那里有很多好东西。有关使用不同分析仪的示例,请跳至第27分钟。