应用错误收集

我在Apache Spark应用程序中进行转换，然后必须通过合并操作从DataFrame更新AWS Redshift表：

为了避免可能的重复，我需要根据某些条件从Redshift表中删除现有记录。
将DataFrame中的所有行插入Redshift表中。

我可以通过以下方法Performing a Merge Operation by Replacing Existing Rows 来完成此任务，然后先将DataFrame（通过JDBC）存储到登台表中，然后在Spark应用程序完成后，从以下位置执行MERGE（如上述AWS文档中所述）。示例Airflow任务。

我只是想知道这是最佳方法，还是可以从我的Spark应用程序本身完成此合并，而无需为此目的引入其他Airflow任务？

通过替换AWS Redshift表中的现有行来执行Apache Spark和合并操作

0 个答案: