我的光束管道将数据导入到bigquery中,最近需要支持更新和删除。由于BigQuery每天都会限制我一天可以进行的更新和删除的数量,因此我希望有一个独立的进程每30分钟运行一次,以将更新和删除合并到主数据集中。
有什么方法可以使用Apache Beam吗?在计时器上运行并仅执行副作用的功能,并确保它仅在一台计算机上执行?
如果我所有的代码都在同一个数据流作业代码库中,并且如果数据流作业未运行,则它不执行,我会非常喜欢它。
答案 0 :(得分:1)
否则,您应该使用Kubernetes Cronjobs。
答案 1 :(得分:1)
您可能会使用GenerateSequence变换以指定的频率触发操作(合并更新和删除)。
答案 2 :(得分:1)
使用云调度程序每30分钟重新启动一次管道吗?