我在一份工作中看到的这条消息确实比类似的工作运行得慢(输入略有不同)。
重复会是什么意思?它是否只影响性能,或者意味着我的代码可以在相同的输入上运行两次(我的代码偶尔会产生副作用)。
谢谢! ģ
答案 0 :(得分:2)
这意味着连接的PCollection太大而无法保留在内存中,因此从中获取元素的效率将低于整个集合适合内存的效率。我们重申CoGroupByKey的物化输入,但您的代码不会重新运行,因此这只会影响性能。
值得注意的是,在工人失败的情况下,带有副作用的代码可能会多次运行。