比较两个要删除的PCollection

时间:2019-10-09 18:11:37

标签: google-cloud-dataflow apache-beam

CloudSQL表中每天都有最新数据,因此在将数据写入另一个CloudSQL表中时,我需要比较现有数据并执行类似的操作,删除已删除的数据并更新现有数据并插入新数据。 / p>

您能否建议使用Dataflow管道(首选Java)来完成此方案的最佳方法。

我发现一件事,就是使用CloudSQL中的upsert函数,我们可以借助jdbc.JdbcIO进行插入/更新记录。但是我不知道如何识别要删除的集合。

1 个答案:

答案 0 :(得分:0)

您可以读取旧表和新表,然后执行Join,然后执行DoFn,该DoFn会比较这两个表并仅输出已更改的元素,然后可以将其写入您希望的任何位置。