我有一个具有固定大小的数组列的数据框。像这样:
[v1, v2, v3, v4]
我需要将数组转换为以下结构的json:
{
v1: {
Min: v2,
Max: v3,
Count: v4
}
}
虽然内部结构很容易实现,但将v1
作为属性的名称更具挑战性。
我尝试过'to_json'
,但是键是从列名中获取的。就我而言,'v1'
在每一行中都会更改。
是否可以在pyspark中实现此功能而不使用udf? 如果有帮助,我可以在Databricks上运行。