Pyspark2取代?在数据中

时间:2017-11-14 06:46:28

标签: python pyspark user-defined-functions

我有问号“?”在我的数据中。在我的名为“名称”的专栏中。这些问号“?”在我的数据中充当空值。我该如何更换?与NaN。

使用pyspark2,我试过

from pyspark.sql.functions import regexp_replace, col

data = data.select(regexp_replace(col("Name"), "?", "NaN"))

是否有其他方式可以使用用户定义的函数?

1 个答案:

答案 0 :(得分:1)

角色'?'在正则表达式中有特殊含义。使用转义序列。希望这会有所帮助,

data = data.select(regexp_replace(col("Name"), "\?", "NaN"))