我们几乎没有火花批量作业和流媒体作业。 Spark批量作业正在Google云VM上运行,Spark流式作业正在Google Dataproc群集上运行。管理这些工作变得越来越困难。所以我们想要实施一些监控工作的机制。健康。 我们的基本要求是知道:
我不熟悉spark域名。我在Google Dataproc中探索了stackdriver日志记录,但没有在数据中心集群上找到流媒体作业的日志。 我知道可以使用ELK堆栈但我想知道这种要求的spark生态系统中的最佳实践是什么。 感谢。
答案 0 :(得分:1)
Google Cloud Dataproc会写入日志并将指标推送到Google Stackdriver,您可以将其用于监控和警报。
查看有关如何将Dataproc与Stackdriver一起使用的文档: https://cloud.google.com/dataproc/docs/guides/stackdriver-monitoring
答案 1 :(得分:0)
添加伊戈尔所说的话。
stackdriver中有一些指标用于基本的事情,比如成功/失败和持续时间,但是,没有像#2那样。
您可以按照this example创建SparkListener,然后直接将指标报告给Stackdriver API。