PySpark使用其他列

时间:2017-03-24 02:45:19

标签: python apache-spark pyspark

我想将一列中的空值替换为相邻列中的值,例如,如果我有

A|B
0,1
2,null
3,null
4,2

我希望它是:

A|B
0,1
2,2
3,3
4,2

尝试

df.na.fill(df.A,"B")

但是没有用,它说值应该是float,int,long,string或dict

有什么想法吗?

3 个答案:

答案 0 :(得分:18)

最后找到了另一种选择:

df.withColumn("B",coalesce(df.B,df.A)) 

答案 1 :(得分:4)

另一个答案。

如果您的数据框下面有df1

rd1 = sc.parallelize([(0,1), (2,None), (3,None), (4,2)])
df1 = rd1.toDF(['A', 'B'])

from pyspark.sql.functions import when
df1.select('A',
           when( df1.B.isNull(), df1.A).otherwise(df1.B).alias('B')
          )\
   .show()

答案 2 :(得分:1)

df.rdd.map(lambda row: row if row[1] else Row(a=row[0],b=row[0])).toDF().show()