Question

我是HDInsight Spark的新手，我正在尝试运行一个用例来了解Azure Spark集群中的工作原理。这是我到目前为止所做的。

能够创建蔚蓝的火花群。
按照链接create standalone scala application to run on HDInsight Spark cluster中所述的步骤创建jar。我使用了与链接中给出的相同的scala代码。
ssh到头节点
使用链接using azure CLI with azure storage
将zip复制到机器上 hadoop fs -copyToLocal

我已经检查过jar会上传到headnode（机器）。我想运行该jar并获得结果，如中所示的链接中所述上面的第2点。下一步将是什么？如何使用命令行界面提交spark作业并获得结果？

Answer 1

例如，考虑到您为程序Submit.jar创建了jar。为了将其提交给具有依赖性的群集，可以使用以下语法。

spark-submit --master yarn --deploy-mode cluster --packages "com.microsoft.azure:azure-eventhubs-spark_2.11:2.2.5" --class com.ex.abc.MainMethod "wasb://space-hdfs@yourblob.blob.core.windows.net/xx/xx/submit.jar" "param1.json" "param2"

这里--packages：是要包含对程序的依赖关系，可以使用--jars选项，然后使用jar路径。 --jars "path/to/dependency/abc.jar"

-class：程序的主要方法之后，为您的程序jar指定路径。您可以根据需要传递参数，如上所示

Answer 2

提交火花罐的几个选项：

1）如果您想在headnode上提交作业，可以使用spark-submit 见Apache submit jar documentation

2）更容易的选择是在将jar上传到wasb存储器后通过livy提交spark jar。见submit via livy doc。如果你这样做，你可以跳过第5步。

如何通过命令行界面将作业（jar）提交到Azure Spark集群？

2 个答案: