本地模式和Databricks集群模式之间的Spark连接记录计数差异

时间:2020-07-18 13:19:10

标签: apache-spark join apache-spark-sql azure-databricks

我正在两个数据帧上进行左外部联接,其中左DataFrame的计数为x,右DataFrame的计数为y。我正在本地计算机以及群集上执行此操作,问题是联接后的记录数在本地模式和群集上是不同的。

用于连接的两个数据帧的记录计数在本地和群集上相同,并且连接条件也相同。但是加入后的记录数在本地和群集中是不同的。

我在本地和群集中都使用Spark版本2.4.0。

0 个答案:

没有答案
相关问题