应用错误收集

使用触发一次的Spark结构化流不支持“完全一次”

时间：2019-10-07 13:52:06

标签： apache-spark spark-structured-streaming

我们使用Spark结构化流技术（2.4.4）从Kafka读取数据并在S3中写入实木复合地板文件。我们使用RunOnce触发器执行spark，按照here的说明每天（分批）安排spark并享受流媒体的优势。

但是，我们看到不能保证“恰好一次”：如果我们在编写过程中停止了该作业并重新运行它，则会出现重复的记录。

是否有什么想法可以启用“恰好一次”？

0 个答案:

没有答案