使用触发一次的Spark结构化流不支持“完全一次”

时间:2019-10-07 13:52:06

标签: apache-spark spark-structured-streaming

我们使用Spark结构化流技术(2.4.4)从Kafka读取数据并在S3中写入实木复合地板文件。 我们使用RunOnce触发器执行spark,按照here的说明每天(分批)安排spark并享受流媒体的优势。

但是,我们看到不能保证“恰好一次”: 如果我们在编写过程中停止了该作业并重新运行它,则会出现重复的记录。

是否有什么想法可以启用“恰好一次”?

0 个答案:

没有答案