Spark具有map-side combine的概念,因此您可以执行部分聚合,从而减少(双关意想不到的)混洗。
Flink中是否有等同的东西?
答案 0 :(得分:1)
是的。 Flink提供了多个接口来定义(地图端)组合器。
GroupCombineFunction<IN, OUT>
将一组输入类型IN
的子集组合为一个或多个类型OUT
的组合值CombineFunction<IN, OUT>
将一组输入类型IN
的子集组合为类型OUT
的单个值ReduceFunction<T>
将类型为T
的对组合为类型为T
的单个值。此功能自动用于合并(预聚合)和减少(完全聚合)。