标签: apache-flink flink-streaming
有人可以提供一些关于Apache flink中GroupCombine of Grouped Dataset实际用例的信息。
参考:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/dataset_transformations.html#groupcombine-on-a-grouped-dataset
答案 0 :(得分:1)
GroupCombine用于优化目的。与GroupReduce不同,它不进行任何数据混洗,但仅适用于单个分区。这有助于减少要发送到下一次减少操作的数据。简单来说,它是一个Local Reduce操作。
如果您熟悉Hadoop中的Map Reduce功能,我们也会在那里进行组合操作。 Flink中的GroupCombine完全以相同的方式工作。
这是Hadoop中Combiner的直观表示。
希望这有帮助!