oozie工作流程的最大限制

时间:2017-10-25 00:22:26

标签: hadoop hdfs oozie oozie-workflow

有没有人知道可以并行执行的oozie工作流程的最大限制是什么?

我正在并行运行35个工作流程(或者oozie UI提到它们都是并行启动的)。所有子工作流程都执行从本地到HDFS和文件的文件摄取。从此对文件的元数据进行一些验证检查。就这么简单。

但是,我发现一些子工作流程在执行过程中失败了;它们失败的步骤尝试将文件放入HDFS位置,即该进程无法执行hdfs dfs -put命令。但是,当我重新运行这些子工作流程时,它们会成功运行。

不确定导致它们执行的原因是hdfs dfs -put失败。

有关可能发生的事情的任何线索/建议?

1 个答案:

答案 0 :(得分:0)

第一个限制并不取决于Oozie,而是取决于YARN中可用于执行Oozie动作的资源,因为每个动作都在一个映射中执行。但是这个限制不会使您的工作流失败:他们只会等待资源。

我们遇到的主要限制(导致麻烦)是oozie服务的可调用队列。有时,在大量协调员提交大量工作量而造成的繁重工作上,Oozie花费了比运行工作流程更多的时间来处理其内部可调用队列:/ 检查oozie.service.CallableQueueService设置以获取有关此信息。