应用错误收集

我是Pyspark的新手，处境棘手。我在数据上附加了日期戳，如下所示：

df = df.withColumn("Ingestion_Date", current_date())

当我使用JDBC将数据写入RDS时，我会这样做：

df.write.format("jdbc") \
    .option("url", jdbcconf.get("url") + '/' + DATABASE + '?user=' + jdbcconf.get('user') + '&password=' + jdbcconf.get('password')) \
    .option("dbtable", TABLE_NAME) \
    .option("tempdir", args["TempDir"]) \
    .mode("overwrite") \
    .save()

但是，我不想简单地覆盖数据。我想检查是否有日期戳。如果是，我要覆盖，否则，我要附加。我知道我可以尝试写入分区（即按特定日期进行分区），但是我不知道如何执行此操作。有什么想法可以做到这一点吗？

PySpark选择基于现有数据覆盖/附加

0 个答案: