应用错误收集

如何每天将大文件（200-500GB）从Teradata服务器复制到HDFS

时间：2019-01-07 16:43:04

标签： hdfs apache-nifi flume

我在SERVER A上有Teradata文件，我需要将Server B复制到HDFS中。我有什么选择？统治distcp是因为Teradata不在HDFS上 scp对于大文件不可行 Flume和Kafka用于流式传输，而不用于文件移动。即使我通过Spool_dir使用Flume，也不过分。

我只能想到的是NiFi。有人对我如何使用Nifi有任何建议吗？还是如果有人已经经历过这种情况，该采取什么方法？

1 个答案:

答案 0 :(得分：0)

我还没有专门在NiFi中使用Teradata数据流，但是在NiFi上已经与其他SQL源进行了合作，我相信开发数据流以将数据从Teradata提取到HDFS的可能性和相当简单。

对于初学者，您可以使用NiFi中可用的ExecuteSQL处理器进行快速检查。与SQL相关的处理器具有一个DBCPConnectionPool属性，该属性是NiFi控制器服务，应使用Teradata服务器的JDBC URL以及驱动程序路径和驱动程序类名称进行配置。确认连接正常后，您可以查看GenerateTableFetch / QueryDatabaseTable

Hortonworks的文章讨论如何使用Teradata服务器https://community.hortonworks.com/articles/45427/using-teradata-jdbc-connector-in-nifi.html

配置DBCPConnectionPool