如何为2个非常大的数据帧优化pysparkapproximatelyJoin

时间:2019-07-19 12:48:28

标签: join pyspark similarity approximate

我想根据它们的相似性加入两个巨大的数据框。我试过使用roximumlikenessjoin。但是,任务在一段时间后陷入困境,最终失败。

1 个答案:

答案 0 :(得分:0)

有多种方法可以做到:

  1. 增加群集大小
  2. 如果其中一个数据集比另一个数据集小很多,请使用广播联接
  3. 使用阻止技术
  4. 如果可用,请使用Deltalakes