在Pyspark数据框的列中替换空值

时间:2020-07-02 13:41:32

标签: apache-spark pyspark apache-spark-sql pyspark-dataframes

我需要替换Spark数据框中的列中存在的空值。下面是我尝试过的代码

df=df.na.fill(0,Seq('c_amount')).show()

但这会抛出一个错误NameError: name 'Seq' is not defined

下面是我的桌子

   +------------+--------+
   |c_account_id|c_amount|
   +------------+--------+ 
   |           1|    null|    
   |           2|    123 |
   |           3|    null|
   +------------+--------+

预期产量

   +------------+--------+
   |c_account_id|c_amount|
   +------------+--------+ 
   |           1|       0|    
   |           2|     123|
   |           3|       0|
   +------------+--------+

1 个答案:

答案 0 :(得分:1)

您需要这样使用

df = df.fillna("<BLANK>", subset=['col_name'])