应用错误收集

带有各种文档的hadoop可搜索存档的最佳实践（pdf，ppt，MS word，纯文本等）

时间：2016-04-04 13:23:30

标签： hadoop elasticsearch full-text-search hdfs elasticsearch-plugin

我遇到一个问题，我有各种格式的文档，如PDF，MS Word，PPT，纯文本等，它们存储在 HDFS 中。我应该将内容提取到elasticsearch索引中并构建一个全文搜索系统。我已经阅读了 ES-Hadoop 。但在这种情况下，我是否可以使用ES的 mapper-attachments插件 或 Apache Tika 以及是否ES-Hadoop是实时与否（如果我使用它）。

我很好奇将什么是从文档中提取内容到ES索引并搜索相同内容的正确方法。

任何帮助都将不胜感激。

萨钦

1 个答案:

答案 0 :(得分：1)

关于是否使用ES映射器附件插件或Apache Tika的问题。我建议你使用mapper插件，因为它与Elasticsearch很好地集成，可以节省大量的开销索引并将元信息添加到你正在索引的文档中。

据我所知，ES-Hadoop不公开流媒体（实时）API。我正在使用ES-Hadoop和Apache Spark，并且必须使用Apache Kafka自行为Elasticsearch实现一些流数据。

希望有所帮助。