如何每天将大文件(200-500GB)从Teradata服务器复制到HDFS

时间:2019-01-07 16:43:04

标签: hdfs apache-nifi flume

我在SERVER A上有Teradata文件,我需要将Server B复制到HDFS中。我有什么选择? 统治distcp是因为Teradata不在HDFS上 scp对于大文件不可行 Flume和Kafka用于流式传输,而不用于文件移动。即使我通过Spool_dir使用Flume,也不过分。

我只能想到的是NiFi。有人对我如何使用Nifi有任何建议吗? 还是如果有人已经经历过这种情况,该采取什么方法?

1 个答案:

答案 0 :(得分:0)

我还没有专门在NiFi中使用Teradata数据流,但是在NiFi上已经与其他SQL源进行了合作,我相信开发数据流以将数据从Teradata提取到HDFS的可能性和相当简单。

对于初学者,您可以使用NiFi中可用的ExecuteSQL处理器进行快速检查。与SQL相关的处理器具有一个DBCPConnectionPool属性,该属性是NiFi控制器服务,应使用Teradata服务器的JDBC URL以及驱动程序路径和驱动程序类名称进行配置。确认连接正常后,您可以查看GenerateTableFetch / QueryDatabaseTable

Hortonworks的文章讨论如何使用Teradata服务器https://community.hortonworks.com/articles/45427/using-teradata-jdbc-connector-in-nifi.html

配置DBCPConnectionPool