应用错误收集

如何获得火花工作的指标？

时间：2015-12-07 17:59:09

标签： performance hadoop apache-spark ganglia

我们有一个拥有大约20个节点的集群。此群集在许多用户和作业之间共享。因此，我很难观察我的工作，以便获得一些指标，如CPU使用率，I / O，网络，内存等......

如何获得工作级别的指标。

PS：群集已经安装了Ganglia但不确定如何让它在作业级别上运行。我想要做的是监视集群使用的资源，仅执行我的工作。

1 个答案:

答案 0 :(得分：2)

您可以从Spark History Server获取spark作业指标，它显示以下信息：
- 调度程序阶段和任务列表
- RDD大小和内存使用情况的摘要
- 环境信息
- 有关正在运行的执行程序的信息

1，在启动spark应用程序之前将 spark.eventLog.enabled 设置为true。这会将Spark配置为将Spark事件记录到持久存储中 2，设置 spark.history.fs.logDirectory ，这是包含要由历史服务器加载的应用程序事件日志的目录;
3，执行以下命令启动历史记录服务器： ./ sbin / start-history-server.sh

请参阅以下链接了解更多信息：
http://spark.apache.org/docs/latest/monitoring.html