apache-spark - 火花流写入整个数据而不是增量

我正在尝试使用以下示例编写增量数据- 源路径 - s3a://bucketName/inPath 附加模式。

我将其作为流读取并在每次写入流时写入 currentTimestamp 文件夹 -

spark.readStream.schema(spark.read.load("s3a://bucketName/inPath").schema).parquet("s3a://bucketName/inPath")
        .writeStream
        .trigger(Trigger.Once)
        .option("checkpointLocation", "s3a://bucektName/outPath/checkpoint")
        .foreachBatch { (batchDF: DataFrame, batchId: Long) =>
            batchDF
            .write
            .mode(SaveMode.Append)
            .parquet(s"s3a://bucektName/outPath/${currentTimestamp}")
        }.start()

但它创建的完整数据写入每个 currentTimestamp 文件夹。

请帮忙。

火花流写入整个数据而不是增量

0 个答案: