Question

我有以下Scala值：

val values: List[Iterable[Any]] = Traces().evaluate(features).toList

我希望将其转换为DataFrame。

当我尝试以下操作时：

sqlContext.createDataFrame(values)

我收到了这个错误：

error: overloaded method value createDataFrame with alternatives:

[A <: Product](data: Seq[A])(implicit evidence$2: reflect.runtime.universe.TypeTag[A])org.apache.spark.sql.DataFrame 
[A <: Product](rdd: org.apache.spark.rdd.RDD[A])(implicit evidence$1: reflect.runtime.universe.TypeTag[A])org.apache.spark.sql.DataFrame
cannot be applied to (List[Iterable[Any]])
          sqlContext.createDataFrame(values)

为什么？

Answer 1

这就是暗示对象的含义。它允许您将常见的scala集合类型转换为DataFrame / DataSet / RDD。以下是Spark 2.0的示例，但它也存在于旧版本中

import org.apache.spark.sql.SparkSession
val values = List(1,2,3,4,5)

val spark = SparkSession.builder().master("local").getOrCreate()
import spark.implicits._
val df = values.toDF()

编辑：刚刚意识到你是在2d列表之后。这是我在spark-shell上尝试过的东西。我将2d List转换为元组列表，并使用隐式转换为DataFrame：

val values = List(List("1", "One") ,List("2", "Two") ,List("3", "Three"),List("4","4")).map(x =>(x(0), x(1)))
import spark.implicits._
val df = values.toDF

Edit2：MTT的原始问题是如何从scala列表为2d列表创建spark数据帧，这是正确的答案。最初的问题是https://stackoverflow.com/revisions/38063195/1 该问题后来被更改为符合已接受的答案。添加此编辑，以便其他人在寻找与原始问题类似的内容时可以找到它。

Answer 2

如上所述zero323，我们需要先将List[Iterable[Any]]转换为List[Row]，然后将行放入RDD并为火花数据框准备架构。

要将List[Iterable[Any]]转换为List[Row]，我们可以说

val rows = values.map{x => Row(x:_*)}

然后拥有类似schema的架构，我们可以制作RDD

val rdd = sparkContext.makeRDD[RDD](rows)

最后创建一个火花数据框

val df = sqlContext.createDataFrame(rdd, schema)

Answer 3

最简单的方法：

val newList = yourList.map(Tuple1(_))
val df = spark.createDataFrame(newList).toDF("stuff")

Answer 4

在Spark 2中，我们可以通过toDS API将列表转换为DS来使用DataSet

val ds = list.flatMap(_.split(",")).toDS() // Records split by comma

或

val ds = list.toDS()

这比rdd或df

更方便

Answer 5

我找到的最简洁的方法：

val df = spark.createDataFrame(List("A", "B", "C").map(Tuple1(_)))

如何从Scala的Iterables列表创建DataFrame？

5 个答案: