每隔几分钟就执行一次类似cron的任务?

时间:2018-12-27 17:27:54

标签: google-cloud-dataflow apache-beam

我的光束管道将数据导入到bigquery中,最近需要支持更新和删除。由于BigQuery每天都会限制我一天可以进行的更新和删除的数量,因此我希望有一个独立的进程每30分钟运行一次,以将更新和删除合并到主数据集中。

有什么方法可以使用Apache Beam吗?在计时器上运行并仅执行副作用的功能,并确保它仅在一台计算机上执行?

如果我所有的代码都在同一个数据流作业代码库中,并且如果数据流作业未运行,则它不执行,我会非常喜欢它。

3 个答案:

答案 0 :(得分:1)

否则,您应该使用Kubernetes Cronjobs。

答案 1 :(得分:1)

您可能会使用GenerateSequence变换以指定的频率触发操作(合并更新和删除)。

答案 2 :(得分:1)

使用云调度程序每30分钟重新启动一次管道吗?

https://cloud.google.com/scheduler/