应用错误收集

时间：2015-03-27 17:47:13

标签： elasticsearch formal-languages

我目前正在尝试为我的ElasticSearch集群找出分析方案。我使用ES来索引pdf，word，powerpoint和excel文档。我正在使用Apache Tika来提取文本。

我的问题是我手边不知道期望文件内容是什么语言。它们可以用任何语言书写。

我的问题是，有没有办法让ES分析文本而不管语言？或者我是否应该为每种语言预先定义一个字段，并使用自己的标记器，分析器和停用词？

答案 0 :(得分：1)

我建议看一下ElasticSearch插件elasticsearch-mapper-attachments。我用它来构建文档搜索功能。

在支持多种语言时，我们拥有每种语言一个索引的最佳体验。如果您可以在编制索引之前识别语言，则可以将文档插入相应的索引中。这样可以更轻松地添加新语言，而不是按语言方法添加字段。

要记住的一件事是每个文档页面一种语言底部的Don't use Types for Languages注释。这样做可能会以非常难以调试的方式搞乱搜索。

如果您需要检测语言，“混合语言陷阱”页面底部会提到两个选项。