谷歌数据流管道陷入了拖延

时间:2017-09-27 08:20:21

标签: google-cloud-platform google-cloud-dataflow

昨天我在Google-Dataflow上开了一个工作,通常大约需要10-30分钟。今天早上还在运行。在查看stackdriver时,我看到了一个重复的日志循环:

self.navigationController.navigationBar.translucent

我现在取消了这份工作。在此工作开始之前,我将工作人员的磁盘大小减少到40GB,因为我们的配额为10,240GB(!!!)超过了大约15个工作。我会将磁盘大小增加到大约100GB,但不应该更多。

有关如何解决此问题的任何建议或如何解决这个问题?这个错误的真正含义也很有趣......

工作ID:2017-09-26_09_29_26-14666853265610614017

enter image description here

步骤" ToElasticsearch"在取消工作之前显示16小时。在此步骤中,每篇文章只有http-Posts到Elasticsearch

1 个答案:

答案 0 :(得分:0)

最可能的原因是你有一个热键。具体来说,其中一个键产生大部分输出。在这种情况下,工作不会很好地分配给可用的工作人员。您可以尝试在可能为单个输入提供许多输出的步骤之后插入Reshuffle转换。这听起来像是在ReadArticlesFromDatastore步骤可能是正确的位置之后这样做。