给出一个集合U
,该集合存储在名为rdd
的RDD中。
建议将任何给定的RDD rdd_not_set
和rdd
合并以使结果rdd
也是集合的推荐方式。
rdd = sc.union([rdd, U])
rdd = rdd.reduceBykey(reduce_func)
例如:rdd = sc.parallelize([(1,2), (2,3)])
和rdd_not_set = sc.parallelize([(1,4), (3,4)])
以及结果final_rdd = sc.parallelize([(1,4), (2,3), (3,4)])
天真的解决方案是先执行union
,然后执行reduceByKey
,因为rdd
的规模很大,效率极低。