apache-spark - 在Spark中将数组列转换为json时如何设置属性名称？（不带udf） - Thinbug

在Spark中将数组列转换为json时如何设置属性名称？（不带udf）

时间：2018-08-13 16:03:51

标签： apache-spark pyspark databricks

我有一个具有固定大小的数组列的数据框。像这样：

[v1, v2, v3, v4]

我需要将数组转换为以下结构的json：

{ 
   v1: {
          Min: v2,
          Max: v3,
          Count: v4
   }
}

虽然内部结构很容易实现，但将v1作为属性的名称更具挑战性。

我尝试过'to_json'，但是键是从列名中获取的。就我而言，'v1'在每一行中都会更改。

是否可以在pyspark中实现此功能而不使用udf？如果有帮助，我可以在Databricks上运行。

0 个答案:

没有答案