CoGbkResult有超过10000个元素,需要重复(可能很慢)

时间:2015-12-07 15:15:24

标签: google-cloud-dataflow

我在一份工作中看到的这条消息确实比类似的工作运行得慢(输入略有不同)。

重复会是什么意思?它是否只影响性能,或者意味着我的代码可以在相同的输入上运行两次(我的代码偶尔会产生副作用)。

谢谢! ģ

1 个答案:

答案 0 :(得分:2)

这意味着连接的PCollection太大而无法保留在内存中,因此从中获取元素的效率将低于整个集合适合内存的效率。我们重申CoGroupByKey的物化输入,但您的代码不会重新运行,因此这只会影响性能。

值得注意的是,在工人失败的情况下,带有副作用的代码可能会多次运行。