将字符串转换为ArrayType(DoubleType)pyspark数据框

时间:2020-06-12 10:26:40

标签: python arrays dataframe apache-spark casting

我在Spark中有一个具有以下架构的数据框: 架构:

StructType(List(StructField(id,StringType,true),
StructField(daily_id,StringType,true),
StructField(activity,StringType,true)))

列活动是一个字符串,示例内容:

{1.33,0.567,1.897,0,0.78}

我需要将Activity列转换为ArrayType(DoubleType)

为了完成该任务,我运行了以下命令:

df = df.withColumn("activity",split(col("activity"),",\s*").cast(ArrayType(DoubleType())))

数据框的新架构已相应更改:

StructType(List(StructField(id,StringType,true),
StructField(daily_id,StringType,true),
StructField(activity,ArrayType(DoubleType,true),true)))

但是,数据现在看起来像这样: [NULL,0.567,1.897,0,NULL]

它将字符串数组的第一个和最后一个元素更改为NULL。我不知道为什么Spark会对数据框执行此操作。

请问这里有什么问题?

非常感谢

4 个答案:

答案 0 :(得分:0)

因为

以下代码未替换{}

df.withColumn("activity",F.split(F.col("activity"),",\s*")).show(truncate=False)
+-------------------------------+
|activity                       |
+-------------------------------+
|[{1.33, 0.567, 1.897, 0, 0.78}]|
+-------------------------------+

当您尝试将这些{1.330.78}字符串值转换为DoubleType时,将得到null作为输出。

df.withColumn("activity",F.split(F.col("activity"),",\s*").cast(ArrayType(DoubleType()))).show(truncate=False)
+----------------------+
|activity              |
+----------------------+
|[, 0.567, 1.897, 0.0,]|
+----------------------+

更改此

df.withColumn("activity",split(col("activity"),",\s*").cast(ArrayType(DoubleType())))

from pyspark.sql import functions as F
from pyspark.sql.types import ArrayType
from pyspark.sql.types import DoubleType

df.select(F.split(F.regexp_replace(F.col("activity"),"[{ }]",""),",").cast("array<double>").alias("activity"))

答案 1 :(得分:0)

之所以发生这种情况,是因为您的第一个和最后一个字母是方括号本身,因此将其转换为null


testdf.withColumn('activity',f.split(f.col('activity').substr(f.lit(2),f.length(f.col('activity'))-2),',').cast(t.ArrayType(t.DoubleType()))).show(2, False)

答案 2 :(得分:0)

试试这个-

   val df = Seq("{1.33,0.567,1.897,0,0.78}").toDF("activity")
    df.show(false)
    df.printSchema()
    /**
      * +-------------------------+
      * |activity                 |
      * +-------------------------+
      * |{1.33,0.567,1.897,0,0.78}|
      * +-------------------------+
      *
      * root
      * |-- activity: string (nullable = true)
      */
    val processedDF = df.withColumn("activity",
      split(regexp_replace($"activity", "[^0-9.,]", ""), ",").cast("array<double>"))
    processedDF.show(false)
    processedDF.printSchema()

    /**
      * +-------------------------------+
      * |activity                       |
      * +-------------------------------+
      * |[1.33, 0.567, 1.897, 0.0, 0.78]|
      * +-------------------------------+
      *
      * root
      * |-- activity: array (nullable = true)
      * |    |-- element: double (containsNull = true)
      */

答案 3 :(得分:0)

使用Spark SQL的简单方法(不使用正则表达式):

df2=(df1
     .withColumn('col1',expr("""
     transform(
     split(
     substring(activity,2,length(activity)-2),','),
     x->DOUBLE(x))
     """))
    )