应用错误收集

我有两个大型数据集，

val dataA : Dataset[TypeA]和 val dataB: Dataset[TypeB]，其中TypeA和TypeB都延伸Serializable。

我想将两个数据集连接到不同的列上，因此TypeA.ColumnA == TypeB.ColumnB位于ProgressBar。 Spark在数据集上提供函数JoinWith，我认为这将正确地执行此操作，但该函数未记录并标记为“实验”。

我看过的另一种方法是使用PairRDD而不是数据集，并使用公共密钥加入它们（就像在这里的stackoverlow帖子中所说：how to join two datasets by key in scala spark）。

是否有更好的方法来连接两个数据集，或者使用JoinWith或PairRDDs的最佳方法？