Spark-对多列联接的性能影响

时间:2020-06-26 15:51:38

标签: apache-spark apache-spark-sql

当前,我们必须考虑用例在两个数据帧之间连接许多列(可能是20-30甚至更多)以标识要保留的新行。

一个数据帧可以包含20万行,而其他40万行却可以保持增长。

我们在大约40个工作节点的群集中运行该过程。

所以问题不在于能否做到,而不能使整个集群瘫痪

这种情况下的问题:

  1. 集群性能如何根据要加入的列数(重新排列等)而不同?
  2. 在所有联接列之间划分数据框是否可行?

0 个答案:

没有答案
相关问题