我遇到一个问题,我有各种格式的文档,如PDF,MS Word,PPT,纯文本等,它们存储在 HDFS 中。我应该将内容提取到elasticsearch索引中并构建一个全文搜索系统。我已经阅读了 ES-Hadoop 。但在这种情况下,我是否可以使用ES的 mapper-attachments插件 或 Apache Tika 以及是否ES-Hadoop是实时与否(如果我使用它)。
我很好奇将什么是从文档中提取内容到ES索引并搜索相同内容的正确方法。
任何帮助都将不胜感激。
萨钦
答案 0 :(得分:1)
关于是否使用ES映射器附件插件或Apache Tika的问题。我建议你使用mapper插件,因为它与Elasticsearch很好地集成,可以节省大量的开销索引并将元信息添加到你正在索引的文档中。
据我所知,ES-Hadoop不公开流媒体(实时)API。我正在使用ES-Hadoop和Apache Spark,并且必须使用Apache Kafka自行为Elasticsearch实现一些流数据。
希望有所帮助。