Spark 2.4.0引入了新的便捷功能exceptAll
,该功能可以减去两个数据帧,并保持重复。
示例
val df1 = Seq(
("a", 1L),
("a", 1L),
("a", 1L),
("b", 2L)
).toDF("id", "value")
val df2 = Seq(
("a", 1L),
("b", 2L)
).toDF("id", "value")
df1.exceptAll(df2).collect()
// will return
Seq(("a", 1L),("a", 1L))
但是我只能使用Spark 2.3.0。
仅使用Spark 2.3.0中的函数来实现此目的的最佳方法是什么?
答案 0 :(得分:1)
一种选择是使用row_number
生成序列号列,并在left join
上使用它来获取丢失的行。
此处显示的PySpark解决方案。
from pyspark.sql.functions import row_number
from pyspark.sql import Window
w1 = Window.partitionBy(df1.id).orderBy(df1.value)
w2 = Window.partitionBy(df2.id).orderBy(df2.value)
df1 = df1.withColumn("rnum", row_number().over(w1))
df2 = df2.withColumn("rnum", row_number().over(w2))
res_like_exceptAll = df1.join(df2, (df1.id==df2.id) & (df1.val == df2.val) & (df1.rnum == df2.rnum), 'left') \
.filter(df2.id.isNull()) \ #Identifies missing rows
.select(df1.id,df1.value)
res_like_exceptAll.show()