标签: apache-spark apache-spark-sql
当前,我们必须考虑用例在两个数据帧之间连接许多列(可能是20-30甚至更多)以标识要保留的新行。
一个数据帧可以包含20万行,而其他40万行却可以保持增长。
我们在大约40个工作节点的群集中运行该过程。
所以问题不在于能否做到,而不能使整个集群瘫痪
这种情况下的问题: