应用错误收集

时间：2018-05-28 05:22:33

标签： apache-spark google-cloud-dataproc google-cloud-stackdriver

我们几乎没有火花批量作业和流媒体作业。 Spark批量作业正在Google云VM上运行，Spark流式作业正在Google Dataproc群集上运行。管理这些工作变得越来越困难。所以我们想要实施一些监控工作的机制。健康。我们的基本要求是知道：

我不熟悉spark域名。我在Google Dataproc中探索了stackdriver日志记录，但没有在数据中心集群上找到流媒体作业的日志。我知道可以使用ELK堆栈但我想知道这种要求的spark生态系统中的最佳实践是什么。感谢。

答案 0 :(得分：1)

Google Cloud Dataproc会写入日志并将指标推送到Google Stackdriver，您可以将其用于监控和警报。

答案 1 :(得分：0)

添加伊戈尔所说的话。

stackdriver中有一些指标用于基本的事情，比如成功/失败和持续时间，但是，没有像＃2那样。

您可以按照this example创建SparkListener，然后直接将指标报告给Stackdriver API。