maven - 在纱线上运行火花提交时，参考cloudera簇罐

我是Spark的新手。当前，使用Spark batch和Java构建工具来创建Maven作业。我们正在使用Cloudera分发和yarn作为集群管理器。

在pom.xml中，我放置了spark的依赖项，例如spark-core，spark-sql，spark-yarn等。我不想创建一个胖的jar，它将spark/hadoop个jar与我的应用程序jar捆绑在一起，从而增加jar的大小。我认为正确的方法是使用群集jars路径。但是正如我说的，我对Spark还是陌生的，所以不完全知道该怎么做吗？

我将以spark-submit的身份运行我的应用程序jar，但是在命令中如何指定hadoop/spark相关的群集jar，以便我的应用程序可以在yarn群集上成功运行。

如果有人指导我，这将非常有帮助。

在纱线上运行火花提交时，参考cloudera簇罐

0 个答案: