Spark两个RDD加入问题

时间:2015-08-06 22:04:06

标签: python join apache-spark

我有两个RDD。

http://<your_domain>/assets/xxxxxxx

理想的结果是:

moviesRDD =[(1,'monster'),(2,'minions 3D'),...] #(movieID,title)
ratingsRDD =[(1,(3,4)),(2,(4,5)),.....]  #(movieID,(numbersofrating,avg_rating))

我不确定如何获得新的RDD。

1 个答案:

答案 0 :(得分:1)

这应该可以解决问题:

(moviesRDD
    .join(ratingsRDD) # Join by key
    .values() # Extract values
    .map(lambda x: (x[1][0], x[0], x[1][1]))) # Reshape