Question

在Google Cloud Dataproc中，如何访问Spark或Hadoop作业历史记录服务器？我想在工作时查看我的工作经历细节。

Answer 1

为此，您需要创建到群集的SSH隧道，然后在浏览器中使用SOCKS代理。这是因为当Web接口在群集上打开时，防火墙规则会阻止任何人连接（为了安全起见。）

要访问Spark或Hadoop作业历史记录服务器，首先需要创建到群集主节点的SSH隧道：

gcloud compute ssh --zone=<master-host-zone> \ --ssh-flag="-D 1080" --ssh-flag="-N" --ssh-flag="-n" <master-host-name>

一旦安装了SSH隧道，您需要配置浏览器以使用SOCKS代理。假设您正在使用Chrome并知道系统上Chrome的路径，则可以使用以下命令启动带有SOCKS代理的Chrome：

<Google Chrome executable path> \
  --proxy-server="socks5://localhost:1080" \
  --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" \
  --user-data-dir=/tmp/

有关如何执行此操作的详细信息can be found here。

在Dataproc中，如何访问Spark和Hadoop作业历史记录？

1 个答案: