pyspark用正则表达式替换正则表达式

时间:2018-08-17 11:35:44

标签: pyspark

我正在尝试将正则表达式(在这种情况下为带数字的空格)替换为

我有一个包含字符串列的Spark数据框。我想用逗号替换正则表达式(空格加数字)而不丢失数字。我没有运气尝试过这两种方法:

  

df.select(“ A”,f.regexp_replace(f.col(“ A”),“ \ s + [0-9]”,',   ').alias(“ replaced”))

     

df.select(“ A”,f.regexp_replace(f.col(“ A”),“ \ s + [0-9]”,'\ s + [0-9],   ').alias(“ replaced”))

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

您需要的是另一个功能 regex_extract

因此,您必须划分正则表达式并获得所需的部分。可能是这样的:

df.select("A", f.regexp_extract(f.col("A"), "(\s+)([0-9])", 2).alias("replaced"))