应用错误收集

所有Flink DataSet运算符仅支持单个输出，但运算符的输出可由两个或多个后续运算符使用。

有两种方法可以解决您的问题：

使用单个CoGroup计算两个输出的结果，并添加两个过滤器，用于过滤掉两个输出之一的记录。如果两个输出都有不同的数据类型，则需要计算类似Tuple2<FirstType, SecondType>的返回值。此解决方案如下所示：

    input1--\         /--> Filter_output1 
              CoGroup 
    input2--/         \--> Filter_output2

对分组键上的两个CoGroup输入进行分区和排序，并调用两个单独的CoGroup。每个CoGroup计算一个输出。通过在CoGroup之前对数据进行排序，可以重用分区和排序。重要的是，所有运营商必须使用相同的并行性！

    input1 --> PartitionHash --> SortPartition -\-/-> CoGroup1 --> Output1
                                                 X
    input2 --> PartitionHash --> SortPartition -/-\-> CoGroup2 --> Output2

关于迭代，请查看Flink的iteration operators。

Flink：如何在单个转换中处理和输出两个数据集？

1 个答案: