删除&使用PySpark替换字符

时间:2018-01-16 14:48:53

标签: pyspark apache-spark-sql databricks

我有一个数据框,想要删除所有括号并替换为两个连字符。

在:

+------------+
|  dob_concat|
+------------+
|[1983][6][3]|
+------------+

后:

+------------+
| dob_concat |
+------------+
| 1983-6-3   |
+------------+

1 个答案:

答案 0 :(得分:5)

您可以使用regex_replace内置功能,如下所示。

from pyspark.sql import functions as F
df.withColumn("dob_concat", F.regexp_replace(F.regexp_replace(F.regexp_replace("dob_concat", "\\]\\[", "-"), "\\[", ""), "\\]", "")).show()