使用SparkListener

时间:2019-05-27 09:30:53

标签: scala apache-spark apache-spark-sql monitoring

我正在使用onStageCompleted中的SparkListener,试图从accumulables中挖掘出一些有用的数据。

我有兴趣找出用于监视目的的输出大小。 输入行数和字节可以从第一阶段的“ internal.metrics.input.recordsRead ”和“ internal.metrics.shuffle.write.bytesWritten ”中获取,从我倒数第二个阶段的“ internal.metrics.shuffle.write.recordsWritten ”中可以找到输出行数,我不知道如何找到输出字节。

解压缩或压缩也是我的一个选择。我正在使用Spark 2.10。

1 个答案:

答案 0 :(得分:0)

看看onTaskEnd,有一个 bytesWritten 属性。 数据块SparkTaskMetrics 可能也有用。