我正在尝试从SFTP服务器加载包含225 GB(文件数量〜1,75,000)的巨大数据,并将数据复制到HDFS。
为实现上述方案,我们使用了2个处理器。
配置的处理器->递归搜索= true;使用自然排序= true;远程投票批次大小= 5000;并发任务= 3
2.PutHDFS(将数据推送到HDFS)
配置的处理器->并发任务= 3;冲突解决策略=替换; Hadoop配置资源;目录
但是一段时间后,数据复制停止,并且HDFS中的数据大小未更新。 当我在GetSFTP中将Remote Poll Batch Size设置为5000->推送到HDFS的总数据为6.4 GB时,设置为20000->推送到HDFS的总数据为25 GB
但是我似乎无法弄清楚我在做什么错。
答案 0 :(得分:2)
确保您有 scheduled GetSFTP processor
可以基于Timer Drivern(或Cron驱动)运行。
理想的解决方案是使用 ListSFTP + FetchSFTP
处理器,而不是GetSFTP
处理器。
请参阅this链接以配置/使用List + Fetch sftp处理器。