火花流写入整个数据而不是增量

时间:2021-07-14 14:02:58

标签: apache-spark spark-structured-streaming

我正在尝试使用以下示例编写增量数据- 源路径 - s3a://bucketName/inPath 附加模式。

我将其作为流读取并在每次写入流时写入 currentTimestamp 文件夹 -

spark.readStream.schema(spark.read.load("s3a://bucketName/inPath").schema).parquet("s3a://bucketName/inPath")
        .writeStream
        .trigger(Trigger.Once)
        .option("checkpointLocation", "s3a://bucektName/outPath/checkpoint")
        .foreachBatch { (batchDF: DataFrame, batchId: Long) =>
            batchDF
            .write
            .mode(SaveMode.Append)
            .parquet(s"s3a://bucektName/outPath/${currentTimestamp}")
        }.start()
     

但它创建的完整数据写入每个 currentTimestamp 文件夹。

请帮忙。

0 个答案:

没有答案