我的apache beam scio数据流工作要求的工作人数超过我目前的配额。工作顺利完成,但仅限于575名工人。不给它所要求的RAM有什么后果。更多磁盘IO的中间步骤?接收器IO较慢?这取决于工作的进展情况吗?特别是,我的工作非常简单,实际上有两个步骤:
-aggregateByKey
-DO IO per key
我可以运行自己的实验,但我也对这项工作的成本感兴趣,因为它不是非常时间敏感的操作(如果它更便宜,我也可以让它运行更长时间)......
答案 0 :(得分:3)
在这种情况下,您的工作时间将比配额更高的工作时间更高,但所有工作人员执行工作所花费的总时间应该大致相同。
Dataflow会向您收取每个CPU,内存和存储单元的分配时间。如果总的CPU小时数,RAM GB小时数和存储GB小时数大致相同,那么您的工作成本应该大致相同。
注意:如果您使用shuffle服务,数据流也按洗牌的字节数收费。这也应该不受工人数量的影响。