从HBase读取的NiFi或Streamsets,与平面文件中的内容连接并写入Hive

时间:2017-05-03 10:57:24

标签: hadoop hive hbase apache-nifi streamsets

试图弄清楚是否可以通过apache NiFi或Streamsets实现连接。因此我可以定期从HBase读取,与其他表连接并将几个字段写入Hive表。

或者是否有其他工作流管理器工具支持此操作?

1 个答案:

答案 0 :(得分:3)

我不熟悉Streamsets,但我会尝试帮助NiFi。你的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该可以使用ReplaceTextWithMapping处理器。如果不是直接替换,则可以使用平面文件中的值预先填充DistributedMapCache,然后使用FetchDistributedMapCache对HBase记录进行查找。

如果所有其他方法都失败了,那么如果您对Groovy,Javascript或Jython等脚本语言感到满意,可以使用ExecuteScriptInvokeScriptedProcessor编写“join”部分。

在查找/增强处理器上有open Jira case(取得了一些进展),支持CSV文件,属性文件和内存中查找。