Question

我正在使用Spark Scala和Play Framework 我有这样的seq

//a sequence of Book objects
val books:[Seq[Book]]

我用json文件填充格式方法：

implicit val bookFormat: Format[Libri] = {
   ((JsPath \ "City").format[String] and
    (JsPath \ "GEN").format[Int] and
    (JsPath \ "SER").format[Int]    
    ) (Libri.apply , unlift(Libri.unapply)) }

val books = Json.parse(JsonString).as[Seq[Libri]]

如何在Spark RDD中转换此seq。（我想用这个rdd进行一些查询...所以我需要“registerTempTable”和“rdd.sqlContext.sql”

Answer 1

您可以使用sparkContext.parallelize(books)。 parallelize收集一个集合并将其拆分为RDD。您可以传递一个附加参数来定义此seq将被拆分的分区数。

如何在Spark Rdd中转换Seq

1 个答案: