oozie可以监视hdfs目录中新文件的目录吗?

时间:2016-10-27 01:17:50

标签: hadoop hive oozie oozie-coordinator

我需要在我的hadoop集群上执行以下工作流程。

  • 新文件被添加到hdfs目录,/ export /(一天多次)
  • 文件有两种格式:* _A.csv和* _B.csv
  • 将所有* _A.csv复制到/ hive / dumptable_a /
  • 将所有* _B.csv复制到/ hive / dumptable_b /
  • 运行配置单元插入查询以从dumptable_a
  • 加载分区表A.
  • 运行配置单元插入查询以从dumptable_b
  • 加载分区表B.
  • 从/ hive / dumptable_a /和/ hive / dumptable_b /
  • 中删除数据

是否可以设置oozie来监控/导出/获取新文件,并启动工作流程? 如果oozie无法做到这一点,或者它不是正确的工具,那么最好的替代方案是什么?

1 个答案:

答案 0 :(得分:0)

是的,正如Rahul所提到的,请查看Oozie file based coordinator,在那里您可以找到有关如何使用<datasets><input-events>元素的示例。

或者您可以查看oozie文档here

中的示例