标签: apache-spark spark-structured-streaming
我们使用Spark结构化流技术(2.4.4)从Kafka读取数据并在S3中写入实木复合地板文件。 我们使用RunOnce触发器执行spark,按照here的说明每天(分批)安排spark并享受流媒体的优势。
但是,我们看到不能保证“恰好一次”: 如果我们在编写过程中停止了该作业并重新运行它,则会出现重复的记录。
是否有什么想法可以启用“恰好一次”?