在flink中使用GroupCombine的用例

时间:2017-01-31 14:13:39

标签: apache-flink flink-streaming

有人可以提供一些关于Apache flink中GroupCombine of Grouped Dataset实际用例的信息。

参考:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/dataset_transformations.html#groupcombine-on-a-grouped-dataset

1 个答案:

答案 0 :(得分:1)

GroupCombine用于优化目的。与GroupReduce不同,它不进行任何数据混洗,但仅适用于单个分区。这有助于减少要发送到下一次减少操作的数据。简单来说,它是一个Local Reduce操作。

如果您熟悉Hadoop中的Map Reduce功能,我们也会在那里进行组合操作。 Flink中的GroupCombine完全以相同的方式工作。

这是Hadoop中Combiner的直观表示。

enter image description here

希望这有帮助!