试图弄清楚是否可以通过apache NiFi或Streamsets实现连接。因此我可以定期从HBase读取,与其他表连接并将几个字段写入Hive表。
或者是否有其他工作流管理器工具支持此操作?
答案 0 :(得分:3)
我不熟悉Streamsets,但我会尝试帮助NiFi。你的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该可以使用ReplaceTextWithMapping处理器。如果不是直接替换,则可以使用平面文件中的值预先填充DistributedMapCache,然后使用FetchDistributedMapCache对HBase记录进行查找。
如果所有其他方法都失败了,那么如果您对Groovy,Javascript或Jython等脚本语言感到满意,可以使用ExecuteScript或InvokeScriptedProcessor编写“join”部分。
在查找/增强处理器上有open Jira case(取得了一些进展),支持CSV文件,属性文件和内存中查找。