我是Spark
的新手。当前,使用Spark batch
和Java
构建工具来创建Maven
作业。我们正在使用Cloudera
分发和yarn
作为集群管理器。
在pom.xml中,我放置了spark
的依赖项,例如spark-core
,spark-sql
,spark-yarn
等。
我不想创建一个胖的jar,它将spark/hadoop
个jar与我的应用程序jar捆绑在一起,从而增加jar的大小。我认为正确的方法是使用群集jars路径。但是正如我说的,我对Spark
还是陌生的,所以不完全知道该怎么做吗?
我将以spark-submit
的身份运行我的应用程序jar,但是在命令中如何指定hadoop/spark
相关的群集jar,以便我的应用程序可以在yarn
群集上成功运行。
如果有人指导我,这将非常有帮助。