我在远程群集上的YARN下运行Spark安装,在我和头节点之间有防火墙。我可以使用ssh
隧道访问头节点:
> ssh -N -f -L 10000:remotenode:10000 between_machine
并且此设置可用于访问在remotenote
上运行的HiveServer2。如果Spark在群集模式下运行,我需要对7077端口执行相同的操作,并将pyspark
客户端指向localhost
> ssh -N -f -L 7077:remotenode:7077 between_machine
> ./pyspark --master spark://localhost:7077
如何在YARN调度程序下运行Spark?
答案 0 :(得分:-1)
如果您正在寻找要连接的端口,请参阅doc:
中的引用只需打开即可访问此界面 http://:4040在Web浏览器中。如果有多个SparkContexts 它们在同一主机上运行,它们将绑定到连续的端口 从4040(4041,4042等)开始。
如果您只是想通过ssh" tunnel"寻找更通用的方式来访问主机,您可以尝试使用ssh作为socks代理:
ssh user@host -D 20000
然后将浏览器配置为通过socks proxy(host-localhost,port-20000)进行连接。