通过键将多个RDD组合成一列

时间:2016-10-07 21:45:10

标签: apache-spark rdd

遇到了RDD问题。 说,我有三个RDD,它们是RDD[AttribClass1]RDD[AttribClass2]RDD[AttriClass3],每个AttribClass都有一个字段名称作为id,我想要做的是将所有将属性合并为组合类的一个大RDD,比如,类是

ContainerClass(id: IDClass, attrib1: AttribClass1, attrib2: AttribClass2, attrib3: AttribClass3) 

我希望通过加入ID来获得RDD[ContainerClass]。 我看到一些类似的帖子基于按键查找RDD,但不完全一样。 Spark RDD find by key

有没有人做过类似的事情?

创建新RDD而不在本地组合它们的最佳方法是什么?

谢谢, 施

1 个答案:

答案 0 :(得分:0)

没关系,我认为了解如何执行此操作的最佳方法是查看RDD API。这可以通过groupByKey方法完成,然后是coGroup。