应用错误收集

如何为2个非常大的数据帧优化pysparkapproximatelyJoin

时间：2019-07-19 12:48:28

标签： join pyspark similarity approximate

我想根据它们的相似性加入两个巨大的数据框。我试过使用roximumlikenessjoin。但是，任务在一段时间后陷入困境，最终失败。

1 个答案:

答案 0 :(得分：0)

有多种方法可以做到：

增加群集大小
如果其中一个数据集比另一个数据集小很多，请使用广播联接
使用阻止技术
如果可用，请使用Deltalakes