应用错误收集

我有一个UDF，返回的内容类似

[
 {
  'key_1': 'value_1',
  'key_2': 'value_2',
  'key_3': 'value_3',
 },
 {
  'key_1': 'value_4',
  'key_2': 'value_5',
  'key_3': 'value_6',
 },
]

所以我有词典列表（它也可以是列表列表，它并不重要）。我想稍后爆炸（）此列，因此从一条记录中我将有很多行。我已经尝试过与StructField / ArrayType / MapType结合使用，但是在调用.first（）时总是返回错误。你能告诉我看起来怎么样吗？开始有点烦人...

最好！

PS：现在我收到此错误

构造ClassDict的预期零参数（对于numpy.dtype）

当我尝试使用这种结构时：

returnType = ArrayType(StructType([
    StructField('key_1', StringType()),
    StructField('key_2', FloatType()),
    StructField('key_3', FloatType()),
]))

字典列表的正确pyspark返回类型

0 个答案: