标签: apache-beam
Apache-Beam GroupByKey.create()转换的输出为PCollection >>。
当我使用FlinkRunner(批处理模式)运行代码时,我看到Iterable 是一个ArrayList。
这是否意味着每个键的分组元素必须适合内存?
答案 0 :(得分:2)
是的,我想是的。 GroupByKey转换使用Combiner将具有相同键的所有值组合在一起,并且ArrayList用作该键的内部容器。因此,使用热键可能是潜在的NPE问题。
GroupByKey
Combiner
ArrayList
查看实现细节:one和two