我有一个日程安排,每天运行两次-分别是0910和1520 BST。
这产生了大量的DataFlow作业-到目前为止,仅第二个时间表(1520)产生了 80 个作业:
$ gcloud dataflow jobs list
JOB_ID NAME TYPE CREATION_TIME STATE REGION
2018-07-29_12_17_06-14876588186269022154 project-name-513008-by-username Batch 2018-07-29 19:17:07 Running us-central1
2018-07-29_12_14_54-6436458673562317581 project-name-512986-by-username Batch 2018-07-29 19:14:55 Cancelled us-central1
2018-07-29_12_13_55-6167618802124600084 project-name-512985-by-username Batch 2018-07-29 19:13:57 Cancelled us-central1
...
(see PasteBin for the full list)
在上周DataPrep更新之后的几天里,我无法访问该流的运行设置URL。我怀疑运行设置中有一个流程会追溯到流程中(我有12个流程由参考数据集链接)并进行了健全性检查-看来我的流程正处于复杂到足以导致流程崩溃的风口浪尖页面加载超时,我只需要执行几个步骤即可进入运行设置。
我想知道是否每次都超时,是否以某种方式重复了计划或流程中的其他内容-但是又一次,重复作业的数量不一致。
在看到一些采样错误问题后,我最近重新构建了该项目(因为该示例已损坏,因此我无法加载转换UI,但也无法构建新示例)。经过努力解决此问题,我借此机会将其重建为具有结构改进等功能的专用GCP项目。在重建之前,我没有看到此调度错误。