Spark:将一对RDD分成几个

时间:2016-03-22 19:35:37

标签: apache-spark

我有对象RDD t

(1, JOHN SMITH)
(2, JACK J SMITH)

我想把它们分成:

(1, JOHN)
(1, SMITH)
(2, JACK)
(2, J)
(2, SMITH)

我尝试了t.map(t=>(t(0),t(2).split(" ")(0))),但这只将第一个令牌作为pairRDD。不知道怎么做循环来产生每个人

1 个答案:

答案 0 :(得分:1)

rdd.flatMap(row => row._2.split(" ").map(name => (row._1, name)))