在数据流作业中没有达到目标工作者的后果是什么?

时间:2018-05-25 23:45:30

标签: google-cloud-platform google-cloud-dataflow apache-beam

enter image description here

我的apache beam scio数据流工作要求的工作人数超过我目前的配额。工作顺利完成,但仅限于575名工人。不给它所要求的RAM有什么后果。更多磁盘IO的中间步骤?接收器IO较慢?这取决于工作的进展情况吗?特别是,我的工作非常简单,实际上有两个步骤:

-aggregateByKey 
-DO IO per key

我可以运行自己的实验,但我也对这项工作的成本感兴趣,因为它不是非常时间敏感的操作(如果它更便宜,我也可以让它运行更长时间)......

1 个答案:

答案 0 :(得分:3)

在这种情况下,您的工作时间将比配额更高的工作时间更高,但所有工作人员执行工作所花费的总时间应该大致相同。

Dataflow会向您收取每个CPU,内存和存储单元的分配时间。如果总的CPU小时数,RAM GB小时数和存储GB小时数大致相同,那么您的工作成本应该大致相同。

注意:如果您使用shuffle服务,数据流也按洗牌的字节数收费。这也应该不受工人数量的影响。