Pyspark 替换嵌套结构字段中的空值

时间:2021-04-20 14:07:28

标签: pyspark

我有一个通过 Pyspark 读取的嵌套模式,我想替换嵌套在“数据”结构字段中的“句点”字段中的空值。

 |-- key: struct (nullable = true)
 |    |-- ID: struct (nullable = true)
 |    |    |-- value: string (nullable = true)
 |    |    |-- _version: string (nullable = true)
 |    |-- date: struct (nullable = true)
 |    |    |-- value: string (nullable = true)
 |    |    |-- _version: string (nullable = true)
 |    |-- _version: string (nullable = true)
 |-- data: struct (nullable = true)
 |    |-- period: string (nullable = true)
 |    |-- value: struct (nullable = true)
 |    |    |-- member0: string (nullable = true)
 |    |    |-- member1: double (nullable = true)

我想用字符串“DAY”替换它们。我尝试使用 fillna()regexp_replace(),但是没有用。我希望数据保持与源相同的格式,因此分解列无济于事。

df.fillna("DAY", subset=["data.periodicity"]) 是我之前尝试过的。

有什么想法吗?

0 个答案:

没有答案