Question

我在镶木地板文件中有数据，其中有两个字段：object_id: String和alpha: Map<>。

它被读入sparkSQL中的数据框，模式如下所示：

scala> alphaDF.printSchema()
root
 |-- object_id: string (nullable = true)
 |-- ALPHA: map (nullable = true)
 |    |-- key: string
 |    |-- value: struct (valueContainsNull = true)

我正在使用Spark 2.0，我正在尝试创建一个新数据框，其中列需要object_id以及ALPHA地图的键，如object_id, key1, key2, key2, ...

我第一次尝试看看我是否至少可以像这样访问地图：

scala> alphaDF.map(a => a(0)).collect()
<console>:32: error: Unable to find encoder for type stored in a Dataset.
Primitive types (Int, String, etc) and Product types (case classes) are 
supported by importing spark.implicits._  Support for serializing other
types will be added in future releases.
   alphaDF.map(a => a(0)).collect()

但不幸的是，我似乎无法弄清楚如何访问地图的键。

有人可以告诉我一种方法是将object_id加上地图键作为列名称并将值映射为新数据框中的相应值吗？

Answer 1

Spark＆gt; = 2.3

您可以使用map_keys功能简化流程：

import org.apache.spark.sql.functions.map_keys

还有map_values功能，但在此处不会直接有用。

Spark＆lt; 2.3

一般方法可以用几个步骤表示。首先需要进口：

import org.apache.spark.sql.functions.udf import org.apache.spark.sql.Row

和示例数据：

val ds = Seq( (1, Map("foo" -> (1, "a"), "bar" -> (2, "b"))), (2, Map("foo" -> (3, "c"))), (3, Map("bar" -> (4, "d"))) ).toDF("id", "alpha")

要提取密钥，我们可以使用UDF（Spark＆lt; 2.3）

val map_keys = udf[Seq[String], Map[String, Row]](_.keys.toSeq)

或内置函数

import org.apache.spark.sql.functions.map_keys val keysDF = df.select(map_keys($"alpha"))

找到不同的：

val distinctKeys = keysDF.as[Seq[String]].flatMap(identity).distinct .collect.sorted

您还可以使用keys概括explode提取：

import org.apache.spark.sql.functions.explode val distinctKeys = df // Flatten the column into key, value columns .select(explode($"alpha")) .select($"key") .as[String].distinct .collect.sorted

select：

ds.select($"id" +: distinctKeys.map(x => $"alpha".getItem(x).alias(x)): _*)

Answer 2

如果您在PySpark中，我会发现一个简单的实现方式：

from pyspark.sql.functions import map_keys

alphaDF.select(map_keys("ALPHA").alias("keys")).show()

您可以在here

中查看详细信息

如何从SparkSQL DataFrame中的MapType列获取键和值

2 个答案: