我有两个大型数据集,
val dataA : Dataset[TypeA]
和
val dataB: Dataset[TypeB]
,其中TypeA
和TypeB
都延伸Serializable
。
我想将两个数据集连接到不同的列上,因此TypeA.ColumnA == TypeB.ColumnB
位于ProgressBar
。 Spark在数据集上提供函数JoinWith
,我认为这将正确地执行此操作,但该函数未记录并标记为“实验”。
我看过的另一种方法是使用PairRDD而不是数据集,并使用公共密钥加入它们(就像在这里的stackoverlow帖子中所说:how to join two datasets by key in scala spark)。
是否有更好的方法来连接两个数据集,或者使用JoinWith或PairRDDs的最佳方法?