使用OOZIE在File到达NFS时触发执行的最佳方法

时间:2017-04-18 18:59:37

标签: hadoop hdfs oozie nfs

关注12: 不同类型的文件会不时进入我的NFS目录。我想使用OOZIE或任何其他HDFS解决方案来触发文件到达事件,并根据其类型将文件复制到HDFS的特定位置。最好的方法是什么?

1 个答案:

答案 0 :(得分:1)

最好的方式是非常主观的术语。它主要取决于数据到达特定位置后应该发生什么样的数据,频率和类型的事情。

Apache flume可以监控特定文件夹的数据可用性,并将其推送到HDFS 原样等任何接收器。 Flume适用于流式传输数据。但它只执行一项特定工作 - 只是将数据从一个地方移动到另一个地方。

但另一方面,请查看Oozie协调员。协调员具有数据可用性触发器,使用oozie,您可以使用spark,hive,pig等工具在数据到达后执行所有类型的ETL操作,并使用shell操作将其推送到hdfs。您可以安排作业在特定时间,频率下运行,或者如果出现问题,让工作向您发送电子邮件...