让我描述一下我计划建立的管道的想法。
- Twitter数据以JSON格式存入并存储在HDFS中。
- 使用SerDe在JSON文件之上创建一个外部Hive表,用于一些hive分析。
- 使用Elasticsearch进行索引,实时分析和搜索。为此,使用ES连接器创建Hive外部表。
- 使用Twitter表中的数据尽可能快地提供Hive ES外部表。
醇>
这是否可行?
我不知道的是如何仅使用新数据为ES表提供信息。我知道我需要使用hive脚本创建工作流程并安排它运行,让我们每分钟说一次。但我如何找到新数据?
或者我最好直接向ES提供数据,并为hive分析创建Hive外部表?