如何在Spark的自定义接收器中创建批次ID?

时间:2018-12-19 20:13:00

标签: scala apache-spark pyspark spark-streaming

我正在尝试在自定义接收方中识别批次。在批处理间隔期间,每个接收者应具有相同的ID。

我尝试在每个接收器中都有一个计时器,并为第一批开始值。然后,我设置计时器以在批处理间隔后更新ID。这可以工作一段时间。但是,如果任何接收器发生故障,则同步将中断。有什么方法可以在接收器中获得确切的批处理时间或事件吗?

我可以使用广播变量同步它们吗?

我希望每个接收者都具有完全相同的批次ID。 id是整数,字符串还是其他东西都没关系。

0 个答案:

没有答案