下面是我测试过的场景
在上述情况下,重复了7个文件中的数据。如何使用检查点控制此行为?
下面是我的代码:
try{
val kafkaOutput = result.writeStream
.outputMode("append")
.format("orc")
.option("path", "/warehouse/test_duplicate/download/data1")
.option("checkpointLocation", checkpoint_loc)
.option("maxRecordsPerFile", 10)
.trigger(Trigger.ProcessingTime("5 seconds"))
.start()
.awaitTermination()
result.checkpoint()
}catch {
case e: Exception => e.printStackTrace
}
finally
{
println("**********Finally Called***********")
result.checkpoint()
}