计算Spark DataFrames之间的差异

时间:2016-02-16 21:27:19

标签: apache-spark

我有两个DataFrames df1df2。我想计算第三个DataFrame ``df3,使得df3 = (df1 - df2),即df1中存在但df2中不存在的所有元素。是否有任何内置的库函数来实现像df1.subtract(df2)

这样的东西

1 个答案:

答案 0 :(得分:4)

您可能正在搜索except功能:http://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.sql.DataFrame

来自说明:

  

def除了(其他:DataFrame):DataFrame

     

返回一个新的DataFrame,其中包含此框架中的行但不包含   另一帧。这相当于SQL中的EXCEPT。