我知道有很多关于如何使oozie成为数据驱动的时间驱动工作流程的问题,我想到了一个想法:
所以这里是我的理论(我不使用oozie语法只是试着解释一下):
<start to="action1" />
action1
poll a data folder for new unprocessed files (wait for new data)
<ok to="action2" />
action2
process data
<ok to="action1" />
有没有人试过这个? oozie是否限制递归动作调用?
答案 0 :(得分:1)
是的,Oozie的工作流程必须是directed and acyclic graphs。 您可以使用子工作流来解决这些限制,但这确实不是一件好事。
更好的解决方案可能是定义coordinator jobs在数据集可用时运行。