PySpark选择基于现有数据覆盖/附加

时间:2018-09-13 18:25:38

标签: jdbc pyspark rds

我是Pyspark的新手,处境棘手。我在数据上附加了日期戳,如下所示:

df = df.withColumn("Ingestion_Date", current_date())

当我使用JDBC将数据写入RDS时,我会这样做:

df.write.format("jdbc") \
    .option("url", jdbcconf.get("url") + '/' + DATABASE + '?user=' + jdbcconf.get('user') + '&password=' + jdbcconf.get('password')) \
    .option("dbtable", TABLE_NAME) \
    .option("tempdir", args["TempDir"]) \
    .mode("overwrite") \
    .save()

但是,我不想简单地覆盖数据。我想检查是否有日期戳。如果是,我要覆盖,否则,我要附加。我知道我可以尝试写入分区(即按特定日期进行分区),但是我不知道如何执行此操作。有什么想法可以做到这一点吗?

0 个答案:

没有答案