我们正在探索Apache NiFi作为满足我们企业需求的通用数据提取工具。
一个典型的数据摄取要求是从RDBMS移出数据 系统到HDFS。
我能够使用NiFi提供的GenerateTableFetch和ExecuteSQL处理器在NiFi中构建RDBMS到HDFS数据移动流,并且对于较小的表来说一切正常。
但是,由于使用独立发行版,因此无法测试较大表的流程。
有人针对类似要求对NiFi和SQOOP进行了性能比较吗?
答案 0 :(得分:1)
ExecuteSQL
和ExecuteSQLRecord
是更好的选择。前者将自动将结果集转换为Avro序列。后者为您提供了编写输出(JSON,CSV等)的更多自由。关于ExecuteSQL
的一件好事是,您可以将其与MergeRecord
链接起来,以将多个大小适中的结果页组合成更大的数据块,而MergeRecord
可以使用{{1} },为您提供现成的镶木地板,以插入HDFS。