Apache NiFi,用于将数据从RDMBS导入到HDFS-与SQOOP的性能比较

时间:2019-05-14 09:09:12

标签: apache-nifi

我们正在探索Apache NiFi作为满足我们企业需求的通用数据提取工具。

一个典型的数据摄取要求是从RDBMS移出数据 系统到HDFS。

我能够使用NiFi提供的GenerateTableFetch和ExecuteSQL处理器在NiFi中构建RDBMS到HDFS数据移动流,并且对于较小的表来说一切正常。

enter image description here

但是,由于使用独立发行版,因此无法测试较大表的流程。

有人针对类似要求对NiFi和SQOOP进行了性能比较吗?

1 个答案:

答案 0 :(得分:1)

ExecuteSQLExecuteSQLRecord是更好的选择。前者将自动将结果集转换为Avro序列。后者为您提供了编写输出(JSON,CSV等)的更多自由。关于ExecuteSQL的一件好事是,您可以将其与MergeRecord链接起来,以将多个大小适中的结果页组合成更大的数据块,而MergeRecord可以使用{{1} },为您提供现成的镶木地板,以插入HDFS。