在Dataproc中,如何访问Spark和Hadoop作业历史记录?

时间:2015-11-20 21:07:28

标签: google-cloud-dataproc

Google Cloud Dataproc中,如何访问Spark或Hadoop作业历史记录服务器?我想在工作时查看我的工作经历细节。

1 个答案:

答案 0 :(得分:1)

为此,您需要创建到群集的SSH隧道,然后在浏览器中使用SOCKS代理。这是因为当Web接口在群集上打开时,防火墙规则会阻止任何人连接(为了安全起见。)

要访问Spark或Hadoop作业历史记录服务器,首先需要创建到群集主节点的SSH隧道:

gcloud compute ssh --zone=<master-host-zone> \ --ssh-flag="-D 1080" --ssh-flag="-N" --ssh-flag="-n" <master-host-name>

一旦安装了SSH隧道,您需要配置浏览器以使用SOCKS代理。假设您正在使用Chrome并知道系统上Chrome的路径,则可以使用以下命令启动带有SOCKS代理的Chrome:

<Google Chrome executable path> \
  --proxy-server="socks5://localhost:1080" \
  --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" \
  --user-data-dir=/tmp/

有关如何执行此操作的详细信息can be found here