我的火花纱线群集被许多用户使用,并且火花历史记录服务器中有许多作业。通过spark历史记录服务器分页以查找我的工作需要花费大量时间。我找不到根据spark wiki here上的用户ID过滤作业的任何选项。
我想知道,有没有办法选择特定用户提交的职位列表?还是在特定的时间窗口?感谢。
答案 0 :(得分:0)
如果您使用 纱 ,您可以依靠纱线列出并过滤您的应用
yarn application -list | grep -i spark | grep hdpuser
应列出hdpuser的spark应用程序。 此外,在YARN网络用户界面中,您可以查看所有工作,并且可以按不同条件(yarn commands)进行过滤。
使用REST API,在路径 / applications / [app-id] / environment 上,您可以获得spark应用程序的环境详细信息(仅适用于2.2 spark版本)。使用属性 user.name ,它的值应该是启动spark作业的用户名。
查看端口4040上spark web UI上列出的环境属性,以查看所有可用属性。