标签: java apache-spark oozie oozie-workflow
我们正在使用Oozie来安排火花作业工作流程。 我们正在执行多个spark-jobs(在集群YARN上)。
其中一项工作是数据导入作业,我们将数据从Linux文件系统导入HDFS。
我们的问题是,当oozie安排作业时,群集中的任何节点都可以作为主节点工作,但数据仅存在于节点1上。
因此,我们希望确保在运行data-import-job时始终将node-1作为主节点。
我们能做到吗?
此致 Anuj Mehra