我们有一个拥有大约20个节点的集群。此群集在许多用户和作业之间共享。因此,我很难观察我的工作,以便获得一些指标,如CPU使用率,I / O,网络,内存等......
如何获得工作级别的指标。
PS:群集已经安装了Ganglia但不确定如何让它在作业级别上运行。我想要做的是监视集群使用的资源,仅执行我的工作。
答案 0 :(得分:2)
您可以从Spark History Server获取spark作业指标,它显示以下信息:
- 调度程序阶段和任务列表
- RDD大小和内存使用情况的摘要
- 环境信息
- 有关正在运行的执行程序的信息
1,在启动spark应用程序之前将 spark.eventLog.enabled 设置为true。这会将Spark配置为将Spark事件记录到持久存储中
2,设置 spark.history.fs.logDirectory ,这是包含要由历史服务器加载的应用程序事件日志的目录;
3,执行以下命令启动历史记录服务器: ./ sbin / start-history-server.sh
请参阅以下链接了解更多信息:
http://spark.apache.org/docs/latest/monitoring.html