我有两个要连接的数据集,并将结果组合在同一个键中。
示例:
数据集1: key1,value1 key2,value2 key3,value3
数据集2: key1,value4 key4,value5 key1,value6
对这两个数据集使用joinWith操作的内部联接将为我提供:
加入数据集: Tuple2<< key1,value1>,> Tuple2<< key1,value1>,>
我想在左元组中组合key1的所有结果并生成如下内容:
Tuple2<,List {< key1,value4>,< key1,value6>}>
为实现这一目标,我可以:
由于groupBy是一项代价高昂的操作,我还有另一种方法可以达到这个目的吗?