如何在Spark Rdd中转换Seq

时间:2016-10-19 14:02:36

标签: scala apache-spark playframework

我正在使用Spark Scala和Play Framework 我有这样的seq

//a sequence of Book objects
val books:[Seq[Book]]

我用json文件填充格式方法:

implicit val bookFormat: Format[Libri] = {
   ((JsPath \ "City").format[String] and
    (JsPath \ "GEN").format[Int] and
    (JsPath \ "SER").format[Int]    
    ) (Libri.apply , unlift(Libri.unapply)) }

val books = Json.parse(JsonString).as[Seq[Libri]]

如何在Spark RDD中转换此seq。 (我想用这个rdd进行一些查询...所以我需要“registerTempTable”和“rdd.sqlContext.sql”

1 个答案:

答案 0 :(得分:2)

您可以使用sparkContext.parallelize(books)parallelize收集一个集合并将其拆分为RDD。您可以传递一个附加参数来定义此seq将被拆分的分区数。