Question

数据框中有一列批次。它具有'9％'，'$ 5'等值。

我需要使用regex_replace，以便从上面的示例中删除特殊字符并仅保留数字部分。

例如9和5在同一列中分别取代9％和$ 5。

Answer 1

df.withColumn("batch",regexp_replace(col("batch"), "/[^0-9]+/", ""))

Answer 2

到目前为止你尝试了什么？

select regexp_replace("'$5','9%'","[^0-9A-Za-z]","")

Answer 3

您可以使用此正则表达式：

\W+

\W - 匹配任何非单词字符（等于[^ a-zA-Z0-9 _]）