Question

我有一个通过 Pyspark 读取的嵌套模式，我想替换嵌套在“数据”结构字段中的“句点”字段中的空值。

 |-- key: struct (nullable = true)
 |    |-- ID: struct (nullable = true)
 |    |    |-- value: string (nullable = true)
 |    |    |-- _version: string (nullable = true)
 |    |-- date: struct (nullable = true)
 |    |    |-- value: string (nullable = true)
 |    |    |-- _version: string (nullable = true)
 |    |-- _version: string (nullable = true)
 |-- data: struct (nullable = true)
 |    |-- period: string (nullable = true)
 |    |-- value: struct (nullable = true)
 |    |    |-- member0: string (nullable = true)
 |    |    |-- member1: double (nullable = true)

我想用字符串“DAY”替换它们。我尝试使用 fillna() 和 regexp_replace()，但是没有用。我希望数据保持与源相同的格式，因此分解列无济于事。

df.fillna("DAY", subset=["data.periodicity"]) 是我之前尝试过的。

有什么想法吗？

Pyspark 替换嵌套结构字段中的空值

0 个答案: