我有两个RDD。
http://<your_domain>/assets/xxxxxxx
理想的结果是:
moviesRDD =[(1,'monster'),(2,'minions 3D'),...] #(movieID,title)
ratingsRDD =[(1,(3,4)),(2,(4,5)),.....] #(movieID,(numbersofrating,avg_rating))
我不确定如何获得新的RDD。
答案 0 :(得分:1)
这应该可以解决问题:
(moviesRDD
.join(ratingsRDD) # Join by key
.values() # Extract values
.map(lambda x: (x[1][0], x[0], x[1][1]))) # Reshape