遇到了RDD问题。
说,我有三个RDD,它们是RDD[AttribClass1]
,RDD[AttribClass2]
,RDD[AttriClass3]
,每个AttribClass
都有一个字段名称作为id,我想要做的是将所有将属性合并为组合类的一个大RDD,比如,类是
ContainerClass(id: IDClass, attrib1: AttribClass1, attrib2: AttribClass2, attrib3: AttribClass3)
我希望通过加入ID来获得RDD[ContainerClass]
。
我看到一些类似的帖子基于按键查找RDD,但不完全一样。
Spark RDD find by key
有没有人做过类似的事情?
创建新RDD而不在本地组合它们的最佳方法是什么?
谢谢, 施
答案 0 :(得分:0)
没关系,我认为了解如何执行此操作的最佳方法是查看RDD API。这可以通过groupByKey方法完成,然后是coGroup。