使用Pyspark中的where子句更新列

时间:2017-06-29 10:07:46

标签: apache-spark dataframe pyspark pyspark-sql

如何使用where子句更新Pyspark数据框中的列?

这与此SQL操作类似:

   UPDATE table1 SET alpha1= x WHERE alpha2< 6;

其中alpha1和alpha2是table1的列。

对于Eg: 我有一个数据框table1,其值如下:

table1

alpha1    alpha2
3         7
4         5
5         4
6         8 

dataframe Table1 after update : 

alpha1    alpha2
3         7
x         5
x         4
6         8

如何在pyspark数据框中执行此操作?

1 个答案:

答案 0 :(得分:3)

您正在寻找when功能:

df = spark.createDataFrame([("3",7),("4",5),("5",4),("6",8)],["alpha1", "alpha2"])
df.show()
>>> +------+------+
>>> |alpha1|alpha2|
>>> +------+------+
>>> |     3|     7|
>>> |     4|     5|
>>> |     5|     4|
>>> |     6|     8|
>>> +------+------+

df2 = df.withColumn("alpha1", pyspark.sql.functions.when(df["alpha2"] < 6, "x").otherwise(df["alpha1"]))
df2.show()
>>>+------+------+
>>>|alpha1|alpha2|
>>>+------+------+
>>>|     3|     7|
>>>|     x|     5|
>>>|     x|     4|
>>>|     6|     8|
>>>+------+------+