我目前正在尝试为我的ElasticSearch集群找出分析方案。我使用ES来索引pdf,word,powerpoint和excel文档。我正在使用Apache Tika来提取文本。
我的问题是我手边不知道期望文件内容是什么语言。它们可以用任何语言书写。
我的问题是,有没有办法让ES分析文本而不管语言?或者我是否应该为每种语言预先定义一个字段,并使用自己的标记器,分析器和停用词?
答案 0 :(得分:1)
我建议看一下ElasticSearch插件elasticsearch-mapper-attachments。我用它来构建文档搜索功能。
在支持多种语言时,我们拥有每种语言一个索引的最佳体验。如果您可以在编制索引之前识别语言,则可以将文档插入相应的索引中。这样可以更轻松地添加新语言,而不是按语言方法添加字段。
要记住的一件事是每个文档页面一种语言底部的Don't use Types for Languages注释。这样做可能会以非常难以调试的方式搞乱搜索。
如果您需要检测语言,“混合语言陷阱”页面底部会提到两个选项。