标签: scala apache-spark pyspark spark-streaming
我正在尝试在自定义接收方中识别批次。在批处理间隔期间,每个接收者应具有相同的ID。
我尝试在每个接收器中都有一个计时器,并为第一批开始值。然后,我设置计时器以在批处理间隔后更新ID。这可以工作一段时间。但是,如果任何接收器发生故障,则同步将中断。有什么方法可以在接收器中获得确切的批处理时间或事件吗?
我可以使用广播变量同步它们吗?
我希望每个接收者都具有完全相同的批次ID。 id是整数,字符串还是其他东西都没关系。