将Scala Iterable [元组]转换为RDD

时间:2015-10-22 15:14:08

标签: scala apache-spark rdd

我有一个元组列表,(String,String,Int,Double)我想转换为Spark RDD。

一般情况下,如何将Scala Iterable [(a1,a2,a3,...,an)]转换为Spark RDD?

1 个答案:

答案 0 :(得分:9)

有几种方法可以做到这一点,但最直接的方法就是使用Spark Context:

import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._

sc.parallelize(YourIterable.toList)

我认为sc.Parallelize需要转换为List,但它会保留你的结构,因此你仍然会得到一个RDD [String,String,Int,Double]