与pyspark中设置的现有RDD联合

时间:2018-09-29 06:27:18

标签: apache-spark pyspark

给出一个集合U,该集合存储在名为rdd的RDD中。

建议将任何给定的RDD rdd_not_setrdd合并以使结果rdd也是集合的推荐方式。

rdd = sc.union([rdd, U])
rdd = rdd.reduceBykey(reduce_func)

例如:rdd = sc.parallelize([(1,2), (2,3)])rdd_not_set = sc.parallelize([(1,4), (3,4)])以及结果final_rdd = sc.parallelize([(1,4), (2,3), (3,4)])

天真的解决方案是先执行union,然后执行reduceByKey,因为rdd的规模很大,效率极低。

0 个答案:

没有答案