在Spark中将数组列转换为json时如何设置属性名称? (不带udf)

时间:2018-08-13 16:03:51

标签: apache-spark pyspark databricks

我有一个具有固定大小的数组列的数据框。像这样:

[v1, v2, v3, v4]

我需要将数组转换为以下结构的json:

{ 
   v1: {
          Min: v2,
          Max: v3,
          Count: v4
   }
}

虽然内部结构很容易实现,但将v1作为属性的名称更具挑战性。

我尝试过'to_json',但是键是从列名中获取的。就我而言,'v1'在每一行中都会更改。

是否可以在pyspark中实现此功能而不使用udf? 如果有帮助,我可以在Databricks上运行。

0 个答案:

没有答案