我在数据帧上有一个except操作。
df1.except(df2)
物理计划成为火花中的连接操作。有一种奇怪的行为,在SortMergeJoin之后会丢弃一些行。我知道当DF来自相同的原始DF https://issues.apache.org/jira/browse/SPARK-10925时,连接存在问题...所以,我将DF转换为rdd并返回,但它没有解决丢弃行的问题。 奇怪的是,Spark在排序之后正在丢弃行,只是在一些Hash Aggregate操作期间......为dag附加了c