通过SSH隧道连接到通过YARN运行的Spark

时间:2016-01-13 12:13:58

标签: ssh apache-spark yarn

我在远程群集上的YARN下运行Spark安装,在我和头节点之间有防火墙。我可以使用ssh隧道访问头节点:

> ssh -N -f -L 10000:remotenode:10000 between_machine

并且此设置可用于访问在remotenote上运行的HiveServer2。如果Spark在群集模式下运行,我需要对7077端口执行相同的操作,并将pyspark客户端指向localhost

> ssh -N -f -L 7077:remotenode:7077 between_machine
> ./pyspark --master spark://localhost:7077

如何在YARN调度程序下运行Spark?

1 个答案:

答案 0 :(得分:-1)

如果您正在寻找要连接的端口,请参阅doc

中的引用
  

只需打开即可访问此界面   http://:4040在Web浏览器中。如果有多个SparkContexts   它们在同一主机上运行,​​它们将绑定到连续的端口   从4040(4041,4042等)开始。

如果您只是想通过ssh" tunnel"寻找更通用的方式来访问主机,您可以尝试使用ssh作为socks代理:

ssh user@host -D 20000

然后将浏览器配置为通过socks proxy(host-localhost,port-20000)进行连接。