如何在Cloudera中计划/触发Spark作业?

时间:2018-11-20 05:53:13

标签: java scala apache-spark hadoop cloudera

当前,我们的项目在MR上,我们使用Oozie来安排MR Jobs。现在我们转到Spark,并想了解在CDH集群上计划/触发Spark Jobs的推荐方法。请注意,CDH Oozie不支持Spark2作业。因此,请为此提供其他选择。

2 个答案:

答案 0 :(得分:1)

我上次看时,Hue在Worlflow编辑器中有一个Spark选项。如果Cloudera不支持,我不确定为什么会出现...

尽管CDH Oozie确实支持普通外壳脚本,但是您需要确保所有NodeManager在本地服务器上都具有spark-submit命令。

如果这行不通,它还支持运行JAR的Java动作,因此您可以从主要方法开始编写Spark脚本,该方法可以从那里加载任何配置

答案 1 :(得分:0)

一旦您从shell提交spark作业,就像: spark-submit <script_path> <arguments_list> 它被提交到CDH集群。随即您将能够在色相中看到火花作业及其进度。这就是我们触发火花作业的方式。

此外,要编排一系列作业,可以在其周围使用Shell脚本包装器。或者,您可以使用cron作业来触发计时。