Question

我有一个元组列表，（String，String，Int，Double）我想转换为Spark RDD。

一般情况下，如何将Scala Iterable [（a1，a2，a3，...，an）]转换为Spark RDD？

Answer 1

有几种方法可以做到这一点，但最直接的方法就是使用Spark Context：

import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._

sc.parallelize(YourIterable.toList)

我认为sc.Parallelize需要转换为List，但它会保留你的结构，因此你仍然会得到一个RDD [String，String，Int，Double]