通过替换AWS Redshift表中的现有行来执行Apache Spark和合并操作

时间:2019-01-05 17:27:56

标签: apache-spark apache-spark-sql amazon-redshift spark-redshift

我在Apache Spark应用程序中进行转换,然后必须通过合并操作从DataFrame更新AWS Redshift表:

  1. 为了避免可能的重复,我需要根据某些条件从Redshift表中删除现有记录。
  2. 将DataFrame中的所有行插入Redshift表中。

我可以通过以下方法Performing a Merge Operation by Replacing Existing Rows 来完成此任务,然后先将DataFrame(通过JDBC)存储到登台表中,然后在Spark应用程序完成后,从以下位置执行MERGE(如上述AWS文档中所述)。示例Airflow任务。

我只是想知道这是最佳方法,还是可以从我的Spark应用程序本身完成此合并,而无需为此目的引入其他Airflow任务?

0 个答案:

没有答案