字典列表的正确pyspark返回类型

时间:2019-02-11 22:02:09

标签: pyspark

我有一个UDF,返回的内容类似

[
 {
  'key_1': 'value_1',
  'key_2': 'value_2',
  'key_3': 'value_3',
 },
 {
  'key_1': 'value_4',
  'key_2': 'value_5',
  'key_3': 'value_6',
 },
]

所以我有词典列表(它也可以是列表列表,它并不重要)。 我想稍后爆炸()此列,因此从一条记录中我将有很多行。我已经尝试过与StructField / ArrayType / MapType结合使用,但是在调用.first()时总是返回错误。你能告诉我看起来怎么样吗?开始有点烦人...

最好!

PS:现在我收到此错误

  

构造ClassDict的预期零参数(对于numpy.dtype)

当我尝试使用这种结构时:

returnType = ArrayType(StructType([
    StructField('key_1', StringType()),
    StructField('key_2', FloatType()),
    StructField('key_3', FloatType()),
]))

0 个答案:

没有答案