我可以使用哪些工具/框架进行火花作业监控和警报?

时间:2018-05-28 05:22:33

标签: apache-spark google-cloud-dataproc google-cloud-stackdriver

我们几乎没有火花批量作业和流媒体作业。 Spark批量作业正在Google云VM上运行,Spark流式作业正在Google Dataproc群集上运行。管理这些工作变得越来越困难。所以我们想要实施一些监控工作的机制。健康。 我们的基本要求是知道:

  1. 工作开始的时间和处理数据所花费的时间。
  2. 受影响的记录数。
  3. 如果有任何错误,请发送提醒。
  4. 每天可视化上述指标,并在必要时采取措施。
  5. 我不熟悉spark域名。我在Google Dataproc中探索了stackdriver日志记录,但没有在数据中心集群上找到流媒体作业的日志。 我知道可以使用ELK堆栈但我想知道这种要求的spark生态系统中的最佳实践是什么。 感谢。

2 个答案:

答案 0 :(得分:1)

Google Cloud Dataproc会写入日志并将指标推送到Google Stackdriver,您可以将其用于监控和警报。

查看有关如何将Dataproc与Stackdriver一起使用的文档: https://cloud.google.com/dataproc/docs/guides/stackdriver-monitoring

答案 1 :(得分:0)

添加伊戈尔所说的话。

stackdriver中有一些指标用于基本的事情,比如成功/失败和持续时间,但是,没有像#2那样。

您可以按照this example创建SparkListener,然后直接将指标报告给Stackdriver API。