Question

我有两个数据帧。我想根据Data Frame-B中的一些常见列值删除Data Frame-A中的一些记录。

例如：数据框-A：

数据框-B：

Keys: A,B,C columns

期望的输出：

A B C D
3 4 5 7
4 7 9 6

任何解决方案。

Answer 1

您正在寻找left anti-join：

df_a.join(df_b, Seq("A","B","C"), "leftanti").show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  3|  4|  5|  7|
|  4|  7|  9|  6|
+---+---+---+---+

如何在Spark Dataframe中过滤具有多个键的重复记录？

1 个答案: