Question

我有一个包含列的数据框：user, address1, address2, address3, phone1, phone2，依此类推。我想将此数据框转换为 - user, address, phone where address = Map("address1" -> address1.value, "address2" -> address2.value, "address3" -> address3.value)

我能够使用以下方法将列转换为地图：

val mapData = List("address1", "address2", "address3")
df.map(_.getValuesMap[Any](mapData))

但我不知道如何将此添加到我的df。

我是spark和scala的新手，可以在这里使用一些帮助。

Answer 1

Spark＆gt; = 2.0

您可以跳过udf并使用map（Python中的create_map）SQL函数：

import org.apache.spark.sql.functions.map

df.select(
  map(mapData.map(c => lit(c) :: col(c) :: Nil).flatten: _*).alias("a_map")
)

Spark＆lt; 2.0

据我所知，没有直接的方法可以做到这一点。您可以使用这样的UDF：

import org.apache.spark.sql.functions.{udf, array, lit, col} val df = sc.parallelize(Seq( (1L, "addr1", "addr2", "addr3") )).toDF("user", "address1", "address2", "address3") val asMap = udf((keys: Seq[String], values: Seq[String]) => keys.zip(values).filter{ case (k, null) => false case _ => true }.toMap) val keys = array(mapData.map(lit): _*) val values = array(mapData.map(col): _*) val dfWithMap = df.withColumn("address", asMap(keys, values))

另一个不需要UDF的选项是构造字段而不是map：

val dfWithStruct = df.withColumn("address", struct(mapData.map(col): _*))

最大的优点是它可以轻松处理不同类型的值。

使用Spark Dataframe scala将多个不同的列转换为Map列

1 个答案: