相反.join()pyspark

时间:2016-09-01 22:15:38

标签: python apache-spark pyspark

join返回一个RDD,其中包含具有匹配键的所有元素对。

https://spark.apache.org/docs/1.6.2/api/python/pyspark.html#pyspark.RDD.join

示例:

 trueDupsRDD = (rdd1.join(rdd2))

如何进行脱节?

我试过了:

notMatchingRDD = (rdd1.join(!rdd2))

1 个答案:

答案 0 :(得分:5)

使用subtractByKey

  

返回C {self}中没有匹配对的每个(键,值)对   键入C {other}。

rdd1.subtractByKey(rdd2)