我无权访问任何Hadoop节点上的任何CLI,但我可以通过Hue和Jupyter访问集群。工程团队还配置了Hadoop UI,显示New,Running,Submitted,Finish等应用程序。但是,似乎所有火花作业都有一个通用名称,例如:
HIVE-f23fa1a1-4444-4ab2-1c44-12345a123456
或类似的,当我点击application_id时,我收到Failed to read the attempts of the application
错误。 (即使是我自己的工作)。同样,您通常可以使用setAppName
命名的spark作业都被命名为generic" Spark-something"因为在边缘节点上启动Jupyter时已经初始化了spark上下文(即我不能建立一个名称,因为已存在一个名称)。
对于没有特权的Hadoop用户,是否有办法在没有某种CLI权限的情况下查看实际运行的作业(即Hive查询或Spark / Hadoop命令)?
我尝试使用一些我怀疑其中包含工作信息的网址,例如:
http://cluster_master:<portnum>/history/application_1234123412341234_12345/jobs/
或
http://cluster_master:<portnum>/jobs/application_1234123412341234_12345/
但两次尝试都没有返回任何关于作业本身的细节(即使是我使用setAppName
在hive / spark上下文中命名的内容。
如果有更好的方式提出这个问题,请告诉我。我对Hadoop / Spark比较新。我发现的所有参考文档和SO答案都假设是CLI或特权访问,我无法在Spark或Hadoop中找到适用于此问题的任何文档。