应用错误收集

从Hive中实时或接近实时地提取Elasticsearch

时间：2016-04-23 17:13:12

标签： hadoop elasticsearch hive

让我描述一下我计划建立的管道的想法。

Twitter数据以JSON格式存入并存储在HDFS中。
使用SerDe在JSON文件之上创建一个外部Hive表，用于一些hive分析。
使用Elasticsearch进行索引，实时分析和搜索。为此，使用ES连接器创建Hive外部表。
使用Twitter表中的数据尽可能快地提供Hive ES外部表。

这是否可行？

我不知道的是如何仅使用新数据为ES表提供信息。我知道我需要使用hive脚本创建工作流程并安排它运行，让我们每分钟说一次。但我如何找到新数据？

或者我最好直接向ES提供数据，并为hive分析创建Hive外部表？

0 个答案:

没有答案