使用Nifi将文件从SFTP服务器复制到HDFS

时间:2019-01-09 08:12:43

标签: hadoop apache-nifi hortonworks-sandbox

我正在尝试从SFTP服务器加载包含225 GB(文件数量〜1,75,000)的巨大数据,并将数据复制到HDFS。

为实现上述方案,我们使用了2个处理器。

  1. GetSFTP(要从SFTP服务器获取文件)

配置的处理器->递归搜索= true;使用自然排序= true;远程投票批次大小= 5000;并发任务= 3

2.PutHDFS(将数据推送到HDFS)

配置的处理器->并发任务= 3;冲突解决策略=替换; Hadoop配置资源;目录

但是一段时间后,数据复制停止,并且HDFS中的数据大小未更新。 当我在GetSFTP中将Remote Poll Batch Size设置为5000->推送到HDFS的总数据为6.4 GB时,设置为20000->推送到HDFS的总数据为25 GB

但是我似乎无法弄清楚我在做什么错。

1 个答案:

答案 0 :(得分:2)

确保您有 scheduled GetSFTP processor 可以基于Timer Drivern(或Cron驱动)运行。

理想的解决方案是使用 ListSFTP + FetchSFTP 处理器,而不是GetSFTP处理器。

请参阅this链接以配置/使用List + Fetch sftp处理器。