我是Pyspark的新手,处境棘手。我在数据上附加了日期戳,如下所示:
df = df.withColumn("Ingestion_Date", current_date())
当我使用JDBC将数据写入RDS时,我会这样做:
df.write.format("jdbc") \
.option("url", jdbcconf.get("url") + '/' + DATABASE + '?user=' + jdbcconf.get('user') + '&password=' + jdbcconf.get('password')) \
.option("dbtable", TABLE_NAME) \
.option("tempdir", args["TempDir"]) \
.mode("overwrite") \
.save()
但是,我不想简单地覆盖数据。我想检查是否有日期戳。如果是,我要覆盖,否则,我要附加。我知道我可以尝试写入分区(即按特定日期进行分区),但是我不知道如何执行此操作。有什么想法可以做到这一点吗?