如何在pyspark数据框中的一行中执行regexp_replace?

时间:2020-04-16 01:37:09

标签: pyspark pyspark-dataframes

我有一个pyspark数据框列

df.groupBy('Gender').count().show()
(5) Spark Jobs
+------+------+
|Gender| count|
+------+------+
|     F| 44015|
|  null| 42175|
|     M|104423|
|      |     1|
+------+------+

我正在做regexp_replace

#df = df.fillna({'Gender':'missing'})
df = df.withColumn('Gender', regexp_replace('Gender', 'F','Female'))
df = df.withColumn('Gender', regexp_replace('Gender', 'M','Male'))
df = df.withColumn('Gender', regexp_replace('Gender', ' ','missing'))

可以在一行中完成而不是在每一行中调用df?

1 个答案:

答案 0 :(得分:1)

如果您不想使用 regexp_replace 3次,则可以使用 when/otherwise 子句。< / p>

from pyspark.sql import functions as F
from pyspark.sql.functions import when

df.withColumn("Gender", F.when(F.col("Gender")=='F',F.lit("Female"))\
              .when(F.col("Gender")=='M',F.lit("Male"))\
              .otherwise(F.lit("missing"))).show()

+-------+------+
| Gender| count|
+-------+------+
| Female| 44015|
|missing| 42175|
|   Male|104423|
|missing|     1|
+-------+------+

或者您也可以像这样一行一行地完成三个 regexp_replace

from pyspark.sql.functions import regexp_replace
df.withColumn('Gender', regexp_replace(regexp_replace(regexp_replace('Gender', 'F','Female'),'M','Male'),' ','missing')).show()

+-------+------+
| Gender| count|
+-------+------+
| Female| 44015|
|   null| 42175|
|   Male|104423|
|missing|     1|
+-------+------+

我认为 when/otherwise 的性能应优于 3 regexp_replace ,因为您需要使用 { {1}} 也与他们在一起。