带有各种文档的hadoop可搜索存档的最佳实践(pdf,ppt,MS word,纯文本等)

时间:2016-04-04 13:23:30

标签: hadoop elasticsearch full-text-search hdfs elasticsearch-plugin

我遇到一个问题,我有各种格式的文档,如PDF,MS Word,PPT,纯文本等,它们存储在 HDFS 中。我应该将内容提取到elasticsearch索引中并构建一个全文搜索系统。我已经阅读了 ES-Hadoop 。但在这种情况下,我是否可以使用ES的 mapper-attachments插件 Apache Tika 以及是否ES-Hadoop是实时与否(如果我使用它)。

我很好奇将什么是从文档中提取内容到ES索引并搜索相同内容的正确方法。

任何帮助都将不胜感激。

萨钦

1 个答案:

答案 0 :(得分:1)

关于是否使用ES映射器附件插件或Apache Tika的问题。我建议你使用mapper插件,因为它与Elasticsearch很好地集成,可以节省大量的开销索引并将元信息添加到你正在索引的文档中。

据我所知,ES-Hadoop不公开流媒体(实时)API。我正在使用ES-Hadoop和Apache Spark,并且必须使用Apache Kafka自行为Elasticsearch实现一些流数据。

希望有所帮助。