我希望连接到远程集群并执行Spark进程。 所以,根据我的阅读,这是在SparkConf中指定的。
val conf = new SparkConf()
.setAppName("MyAppName")
.setMaster("spark://my_ip:7077")
其中my_ip是我的群集的IP地址。 不幸的是,我拒绝连接。所以,我猜测必须添加一些凭据才能正确连接。我如何指定凭据?它似乎可以用.set(键,值)来完成,但在此没有任何线索。
答案 0 :(得分:2)
缺少两件事:
yarn
(setMaster(“yarn”)),部署模式设置为cluster
,
您当前的设置用于Spark独立版。更多信息:
http://spark.apache.org/docs/latest/configuration.html#application-properties yarn-site.xml
和core-site.xml
个文件并将其放入HADOOP_CONF_DIR
,以便Spark可以选择纱线设置,例如您的主人的IP节点。更多信息:http://theckang.com/2015/remote-spark-jobs-on-yarn/ 顺便说一句,如果您使用spark-submit
提交作业,这将有效,编程方式实现它更复杂,并且只能使用yarn-client
模式,这对于远程设置来说很棘手。
答案 1 :(得分:0)
--master yarn
t命令中使用spark-submi
或在应用配置初始化中使用setMaster("yarn")
。"spark-submit"
命令的情况可以使用popuar Java Secure Channel (JSCH)当然环境参数应该在群集上正确设置