Spark历史记录服务器按用户ID或时间过滤作业

时间:2017-09-01 17:37:25

标签: apache-spark apache-spark-sql spark-streaming

我的火花纱线群集被许多用户使用,并且火花历史记录服务器中有许多作业。通过spark历史记录服务器分页以查找我的工作需要花费大量时间。我找不到根据spark wiki here上的用户ID过滤作业的任何选项。

我想知道,有没有办法选择特定用户提交的职位列表?还是在特定的时间窗口?感谢。

1 个答案:

答案 0 :(得分:0)

如果您使用 ,您可以依靠纱线列出并过滤您的应用

yarn application -list | grep -i spark | grep hdpuser 

应列出hdpuser的spark应用程序。 此外,在YARN网络用户界面中,您可以查看所有工作,并且可以按不同条件(yarn commands)进行过滤。

使用REST API,在路径 / applications / [app-id] / environment 上,您可以获得spark应用程序的环境详细信息(仅适用于2.2 spark版本)。使用属性 user.name ,它的值应该是启动spark作业的用户名。

查看端口4040上spark web UI上列出的环境属性,以查看所有可用属性。