我在Apache Spark应用程序中进行转换,然后必须通过合并操作从DataFrame更新AWS Redshift表:
我可以通过以下方法Performing a Merge Operation by Replacing Existing Rows 来完成此任务,然后先将DataFrame(通过JDBC)存储到登台表中,然后在Spark应用程序完成后,从以下位置执行MERGE(如上述AWS文档中所述)。示例Airflow任务。
我只是想知道这是最佳方法,还是可以从我的Spark应用程序本身完成此合并,而无需为此目的引入其他Airflow任务?