当前,我们的项目在MR上,我们使用Oozie来安排MR Jobs。现在我们转到Spark,并想了解在CDH集群上计划/触发Spark Jobs的推荐方法。请注意,CDH Oozie不支持Spark2作业。因此,请为此提供其他选择。
答案 0 :(得分:1)
我上次看时,Hue在Worlflow编辑器中有一个Spark选项。如果Cloudera不支持,我不确定为什么会出现...
尽管CDH Oozie确实支持普通外壳脚本,但是您需要确保所有NodeManager在本地服务器上都具有spark-submit
命令。
如果这行不通,它还支持运行JAR的Java动作,因此您可以从主要方法开始编写Spark脚本,该方法可以从那里加载任何配置
答案 1 :(得分:0)
一旦您从shell提交spark作业,就像:
spark-submit <script_path> <arguments_list>
它被提交到CDH集群。随即您将能够在色相中看到火花作业及其进度。这就是我们触发火花作业的方式。
此外,要编排一系列作业,可以在其周围使用Shell脚本包装器。或者,您可以使用cron作业来触发计时。