我想使用外部指标系统来监控spark中的流进度。为此,我应该尽快发送带有指标的通知(读取,转换和写入记录的数量)
StreamExecution
使用ProgressReporter
向QueryProgressEvents
发送带有统计信息的StreamingQueryListener
(numInputRows,processedRowsPerSecond等)。问题是当处理批处理中的所有数据时会发生这种情况。但是,我想在从源读取(转换和写入发生之前)后立即获得输入行数的通知,然后在数据发送到接收器时编号写入记录。
有没有办法实时在结构化流媒体中获得每批次的此类指标?
答案 0 :(得分:0)
结构化流式传输的度量标准目前尚未在databricks平台之外的任何地方实现。通过开源spark获取它们的唯一方法是扩展流式查询监听器类并编写自己的类。