如何替换PySpark中另一列的缺失值?

时间:2019-08-16 20:59:28

标签: pyspark coalesce

我想使用t5中的值替换t4中的一些缺失值。搜索过代码,但对我不起作用

example of target

df是一个数据框。代码:

alignas

错误:“ DataFrame”对象没有属性“ withColumn”

此外,以前尝试过以下代码,也没有起作用。

pdf = df.toPandas()  

from pyspark.sql.functions import coalesce
pdf.withColumn("t4", coalesce(pdf.t4, pdf.t5))

错误:没有轴为对象类型命名列

1 个答案:

答案 0 :(得分:1)

就像错误表明 .withColumn()一样,它不是熊猫数据框的一种方法,而是spark数据框。请注意,使用 .toPandas()时,您的pdf会变成熊猫数据框,因此,如果要使用 .withColumn(),请避免进行转换

更新: 如果pdf是熊猫数据框,则可以执行以下操作:

pdf['t4']=pdf['t4'].fillna(pdf['t5'])