FlinkRunner上Apache Beam GroupByKey.create()的可迭代输出类型

时间:2019-09-25 08:30:11

标签: apache-beam

Apache-Beam GroupByKey.create()转换的输出为PCollection >>。

当我使用FlinkRunner(批处理模式)运行代码时,我看到Iterable 是一个ArrayList。

这是否意味着每个键的分组元素必须适合内存?

1 个答案:

答案 0 :(得分:2)

是的,我想是的。 GroupByKey转换使用Combiner将具有相同键的所有值组合在一起,并且ArrayList用作该键的内部容器。因此,使用热键可能是潜在的NPE问题。

查看实现细节:onetwo