远程运行火花作业

时间:2014-09-02 14:59:18

标签: java hadoop cloudera apache-spark

尝试运行启动Spark作业。

Spark在Cloudera Hadoop中作为parcel安装。

如何使用Java API远程启动Spark作业?

2 个答案:

答案 0 :(得分:2)

要以编程方式提交Spark应用程序而不是使用提交脚本,您需要创建SparkContext

以下是Java API SparkContext

要进一步配置上下文,请为其提供SparkConf,其值与配置页上的条目匹配:Configuration

您的群集将需要您要在其类路径中提交给它的代码的副本。有多种方法可以执行此操作,您可以手动在群集上管理它,也可以使用SparkConf方法将其传递到setJars

从Spark 1.3.1开始,每个JVM一次只能创建1个SparkContext。因此,如果要从同一JVM提交并发应用程序,则需要正确管理此共享资源。

答案 1 :(得分:-1)

  

从URl spark-master-hostname检查你的spark-cluster:如果运行正常   转到您要启动作业的机器   (>>这台机器也应该安装了spark库来提交作业而且)   从你的机器上点击此命令   spark-submit --class --jars --master spark://:7077 .jar