如何在pyspark中将字符串值转换为arrayType

时间:2018-12-01 01:10:21

标签: python apache-spark pyspark

我在pyspark dataframe中有一个类似下面的列,类型是String:

enter image description here

现在我想将它们转换为ArrayType[Long],我该怎么做?

1 个答案:

答案 0 :(得分:0)

您必须解析为字符串并使用split函数创建数组

df.withColumn('cat_list',split(regexp_replace(col('cat_list'), '\[|\]',''),',').cast('array<float>').cast('array<long>'))