我正在尝试使用以下示例编写增量数据- 源路径 - s3a://bucketName/inPath 附加模式。
我将其作为流读取并在每次写入流时写入 currentTimestamp 文件夹 -
spark.readStream.schema(spark.read.load("s3a://bucketName/inPath").schema).parquet("s3a://bucketName/inPath")
.writeStream
.trigger(Trigger.Once)
.option("checkpointLocation", "s3a://bucektName/outPath/checkpoint")
.foreachBatch { (batchDF: DataFrame, batchId: Long) =>
batchDF
.write
.mode(SaveMode.Append)
.parquet(s"s3a://bucektName/outPath/${currentTimestamp}")
}.start()
但它创建的完整数据写入每个 currentTimestamp 文件夹。
请帮忙。