scala - 在Spark集群中运行用Scala编写的Spark代码

在Spark集群中运行用Scala编写的Spark代码

时间：2018-03-15 06:13:39

标签： scala hadoop apache-spark intellij-idea bigdata

我的笔记本电脑中安装了IntelliJ IDE。我正在尝试用Scala编写一些Bigdata Spark POC。我的要求是当我单击Run时，IntelliJ IDE中编写的spark-scala代码应该在spark集群中运行。我的火花星团驻留在windows azure云中。我怎样才能做到这一点？

2 个答案:

答案 0 :(得分：2)

一种方法是创建一个脚本来运行创建的jar文件，并运行该脚本。

另一种方式是使用Azure Toolkit插件。

您可以使用Azure Toolkit for IntelliJ Intellij Idea插件提交，运行调试spark应用程序

按如下所示搜索并安装插件

要提交并运行该应用程序，您可以按照此处的文档进行操作

https://azure.microsoft.com/en-us/blog/hdinsight-tool-for-intellij-is-ga/

Here就是一个例子 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-intellij-tool-plugin

希望这有帮助！

答案 1 :(得分：0)

步骤1：在开始此过程之前，您必须下载hadoop bin

https://github.com/steveloughran/winutils/tree/master/hadoop-2.6.0/bin

你必须在环境变量例子中设置hadoop home：C：\ Hadoop \ hadoop

Step2：然后下载所需版本的火花

将路径C：\ Hadoop \ spark-1.6.0-bin-hadoop2.6 \ bin添加到环境变量

步骤3：打开cmd并转到spark文件夹直到bin C：\ Hadoop \ spark-1.6.0-bin-hadoop2.6 \ bin并输入以下命令spark-class org.apache.spark.deploy.master.Master 它会给spark主ip提供例如spark：// localhost：7077 step4：打开另一个cmd并转到spark文件夹直到bin并输入以下命令spark-class org.apache.spark.deploy.worker.Worker SparkMasterIp

步骤5：要检查它是否正常工作，我们可以通过以下命令进行测试 C：\ Hadoop \ spark-1.6.0-bin-hadoop2.6 \ bin \ spark-shell -master masterip

现在你可以构建你的jar并将jar从cmd提交给spark-submit