join
返回一个RDD,其中包含具有匹配键的所有元素对。
https://spark.apache.org/docs/1.6.2/api/python/pyspark.html#pyspark.RDD.join
示例:
trueDupsRDD = (rdd1.join(rdd2))
如何进行脱节?
我试过了:
notMatchingRDD = (rdd1.join(!rdd2))
答案 0 :(得分:5)
使用subtractByKey
:
返回C {self}中没有匹配对的每个(键,值)对 键入C {other}。
rdd1.subtractByKey(rdd2)