在Spark集群中运行用Scala编写的Spark代码

时间:2018-03-15 06:13:39

标签: scala hadoop apache-spark intellij-idea bigdata

我的笔记本电脑中安装了IntelliJ IDE。 我正在尝试用Scala编写一些Bigdata Spark POC。 我的要求是当我单击Run时,IntelliJ IDE中编写的spark-scala代码应该在spark集群中运行。我的火花星团驻留在windows azure云中。 我怎样才能做到这一点?

2 个答案:

答案 0 :(得分:2)

一种方法是创建一个脚本来运行创建的jar文件,并运行该脚本。

另一种方式是使用Azure Toolkit插件。

您可以使用Azure Toolkit for IntelliJ Intellij Idea插件提交,运行调试spark应用程序

按如下所示搜索并安装插件

enter image description here

要提交并运行该应用程序,您可以按照此处的文档进行操作

https://azure.microsoft.com/en-us/blog/hdinsight-tool-for-intellij-is-ga/

Here就是一个例子 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-intellij-tool-plugin

希望这有帮助!

答案 1 :(得分:0)

步骤1:在开始此过程之前,您必须下载hadoop bin

https://github.com/steveloughran/winutils/tree/master/hadoop-2.6.0/bin

你必须在环境变量例子中设置hadoop home:C:\ Hadoop \ hadoop

Step2:然后下载所需版本的火花

将路径C:\ Hadoop \ spark-1.6.0-bin-hadoop2.6 \ bin添加到环境变量

步骤3:打开cmd并转到spark文件夹直到bin         C:\ Hadoop \ spark-1.6.0-bin-hadoop2.6 \ bin并输入以下命令spark-class org.apache.spark.deploy.master.Master         它会给spark主ip提供例如spark:// localhost:7077 step4:打开另一个cmd并转到spark文件夹直到bin并输入以下命令spark-class org.apache.spark.deploy.worker.Worker SparkMasterIp

步骤5:要检查它是否正常工作,我们可以通过以下命令进行测试     C:\ Hadoop \ spark-1.6.0-bin-hadoop2.6 \ bin \ spark-shell -master masterip

现在你可以构建你的jar并将jar从cmd提交给spark-submit