我有一个元组列表,(String,String,Int,Double)我想转换为Spark RDD。
一般情况下,如何将Scala Iterable [(a1,a2,a3,...,an)]转换为Spark RDD?
答案 0 :(得分:9)
有几种方法可以做到这一点,但最直接的方法就是使用Spark Context:
import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._
sc.parallelize(YourIterable.toList)
我认为sc.Parallelize需要转换为List,但它会保留你的结构,因此你仍然会得到一个RDD [String,String,Int,Double]