我有一个RDD
格式的数据集,其中每个条目都是一个Array[Array[String]]
。
每个条目都是key/value
对的数组,每个条目可能不包含所有可能的键。
可能的条目示例是[[K1, V1], [K2, V2], [K3, V3], [K5, V5], [K7, V7]]
,另一个可能是[[K1, V1], [K3, V3], [K21, V21]]
。
我希望实现的是将此RDD
转换为数据帧格式。 K1
,K2
等在每一行中始终表示相同的String
(即K1
始终为“类型”,K2
始终为“颜色” ”),我想将它们用作列。 values
V1
,V2
等在行之间有所不同,我想用它们来填充列的values
。
我不确定如何实现这一目标,因此,我将不胜感激。
答案 0 :(得分:1)
您可以做类似的事情,
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Row, SparkSession}
import java.util.UUID
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.StructType
val l1: Array[Array[String]] = Array(
Array[String]("K1", "V1"),
Array[String]("K2", "V2"),
Array[String]("K3", "V3"),
Array[String]("K5", "V5"),
Array[String]("K7", "V7"))
val l2: Array[Array[String]] = Array(
Array[String]("K1", "V1"),
Array[String]("K3", "V3"),
Array[String]("K21", "V21"))
val spark = SparkSession.builder().master("local").getOrCreate()
val sc = spark.sparkContext
val rdd = sc.parallelize(Array(l1, l2)).flatMap(x => {
val id = UUID.randomUUID().toString
x.map(y => Row(id, y(0), y(1)))
})
val schema = new StructType()
.add("id", "String")
.add("key", "String")
.add("value", "String")
val df = spark
.createDataFrame(rdd, schema)
.groupBy("id")
.pivot("key").agg(last("value"))
.drop("id")
df.printSchema()
df.show(false)
模式和输出看起来像
root
|-- K1: string (nullable = true)
|-- K2: string (nullable = true)
|-- K21: string (nullable = true)
|-- K3: string (nullable = true)
|-- K5: string (nullable = true)
|-- K7: string (nullable = true)
+---+----+----+---+----+----+
|K1 |K2 |K21 |K3 |K5 |K7 |
+---+----+----+---+----+----+
|V1 |null|V21 |V3 |null|null|
|V1 |V2 |null|V3 |V5 |V7 |
+---+----+----+---+----+----+
注意:这将在缺少的地方产生null
,如输出所示。 pivot
基本上根据某列转置数据集
希望这能回答您的问题!