Dataset.Join是否是在Spark中连接两个数据集的最佳方式?

时间:2018-04-16 19:36:50

标签: scala apache-spark join apache-spark-dataset

我有两个大型数据集,

val dataA : Dataset[TypeA]val dataB: Dataset[TypeB],其中TypeATypeB都延伸Serializable

我想将两个数据集连接到不同的列上,因此TypeA.ColumnA == TypeB.ColumnB位于ProgressBar。 Spark在数据集上提供函数JoinWith,我认为这将正确地执行此操作,但该函数未记录并标记为“实验”。

我看过的另一种方法是使用PairRDD而不是数据集,并使用公共密钥加入它们(就像在这里的stackoverlow帖子中所说:how to join two datasets by key in scala spark)。

是否有更好的方法来连接两个数据集,或者使用JoinWith或PairRDDs的最佳方法?

0 个答案:

没有答案