将n个元素的RDD转换为单个元素的RDD

时间:2016-06-29 14:50:34

标签: scala hadoop apache-spark rdd

我有一个像下面这样的字符串的RDD

val rdd1: RDD[String] = RDD("a","b","c","d")

我想连接上面RDD的元素并将其转换为单个元素的RDD,如下所示

RDD("a,b,c,d")

这样做的最佳方式是什么?

1 个答案:

答案 0 :(得分:4)

使用glom功能:

val res: RDD[Array[String]] = RDD("a","b","c","d").glom
// > res = RDD(Array("a", "b", "c", "d"))

然后,您可以使用mkString函数将数组转换为字符串。