在纱线上运行火花提交时,参考cloudera簇罐

时间:2020-11-02 10:23:33

标签: maven apache-spark yarn cloudera spark-submit

我是Spark的新手。当前,使用Spark batchJava构建工具来创建Maven作业。我们正在使用Cloudera分发和yarn作为集群管理器。

在pom.xml中,我放置了spark的依赖项,例如spark-corespark-sqlspark-yarn等。 我不想创建一个胖的jar,它将spark/hadoop个jar与我的应用程序jar捆绑在一起,从而增加jar的大小。我认为正确的方法是使用群集jars路径。但是正如我说的,我对Spark还是陌生的,所以不完全知道该怎么做吗?

我将以spark-submit的身份运行我的应用程序jar,但是在命令中如何指定hadoop/spark相关的群集jar,以便我的应用程序可以在yarn群集上成功运行。

如果有人指导我,这将非常有帮助。

0 个答案:

没有答案
相关问题