排序后为什么火花会掉落?

时间:2018-04-30 17:54:36

标签: apache-spark join spark-dataframe

我在数据帧上有一个except操作。

df1.except(df2) 

物理计划成为火花中的连接操作。有一种奇怪的行为,在SortMergeJoin之后会丢弃一些行。我知道当DF来自相同的原始DF https://issues.apache.org/jira/browse/SPARK-10925时,连接存在问题...所以,我将DF转换为rdd并返回,但它没有解决丢弃行的问题。 奇怪的是,Spark在排序之后正在丢弃行,只是在一些Hash Aggregate操作期间......为dag附加了c enter image description here

0 个答案:

没有答案