Spark数据集:按键组合所有连接结果

时间:2018-05-15 09:09:23

标签: apache-spark join apache-spark-dataset

我有两个要连接的数据集,并将结果组合在同一个键中。

示例:

数据集1: key1,value1 key2,value2 key3,value3

数据集2: key1,value4 key4,value5 key1,value6

对这两个数据集使用joinWith操作的内部联接将为我提供:

加入数据集: Tuple2<< key1,value1>,> Tuple2<< key1,value1>,>

我想在左元组中组合key1的所有结果并生成如下内容:

Tuple2<,List {< key1,value4>,< key1,value6>}>

为实现这一目标,我可以:

  • joinWith
  • groupByKey
  • reduceGroups

由于groupBy是一项代价高昂的操作,我还有另一种方法可以达到这个目的吗?

0 个答案:

没有答案