火花结构流媒体中的实时指标

时间:2018-02-10 00:16:45

标签: apache-spark apache-spark-sql metrics spark-structured-streaming

我想使用外部指标系统来监控spark中的流进度。为此,我应该尽快发送带有指标的通知(读取,转换和写入记录的数量)

StreamExecution使用ProgressReporterQueryProgressEvents发送带有统计信息的StreamingQueryListener(numInputRows,processedRowsPerSecond等)。问题是当处理批处理中的所有数据时会发生这种情况。但是,我想在从源读取(转换和写入发生之前)后立即获得输入行数的通知,然后在数据发送到接收器时编号写入记录。

有没有办法实时在结构化流媒体中获得每批次的此类指标?

1 个答案:

答案 0 :(得分:0)

结构化流式传输的度量标准目前尚未在databricks平台之外的任何地方实现。通过开源spark获取它们的唯一方法是扩展流式查询监听器类并编写自己的类。