Spark RDD String Aggregate

时间:2015-07-03 09:03:39

标签: scala apache-spark

我是Scala / Spark的-3级新手;我有RDD[String,String]每行包含n个单词:

id1, cat fish
id1, eat red
id2, blue Dog

我喜欢RDD[String,String]喜欢:

id1, cat fish eat red
id2, blue Dog

到目前为止,我已尝试groupByKey

val rdd2 = rdd1.groupByKey()

提前感谢您的任何建议。

1 个答案:

答案 0 :(得分:1)

rdd1.reduceByKey((s1, s2) => s1 + " " + s2)