在PySpark中替换字符串

时间:2018-10-31 16:28:24

标签: python dataframe replace pyspark

我有一个数据框,其中包含欧洲格式的数字,我已将其导入为字符串。逗号为小数,反之亦然-

from pyspark.sql.functions import regexp_replace,col
from pyspark.sql.types import FloatType
df = spark.createDataFrame([('-1.269,75',)], ['revenue'])
df.show()
+---------+
|  revenue|
+---------+
|-1.269,75|
+---------+
df.printSchema()
root
 |-- revenue: string (nullable = true)

所需的输出: df.show()

+---------+
|  revenue|
+---------+
|-1269.75|
+---------+
df.printSchema()
root
 |-- revenue: float (nullable = true)

我正在使用函数regexp_replace首先用空格替换点-然后用空点替换逗号,最后转换为floatType。

df = df.withColumn('revenue', regexp_replace(col('revenue'), ".", ""))
df = df.withColumn('revenue', regexp_replace(col('revenue'), ",", "."))
df = df.withColumn('revenue', df['revenue'].cast("float"))

但是,当我尝试在下面替换时,我得到了空字符串。为什么??我期待-1269,75

df = df.withColumn('revenue', regexp_replace(col('revenue'), ".", ""))
+-------+
|revenue|
+-------+
|       |
+-------+

1 个答案:

答案 0 :(得分:5)

您需要对.进行转义以按字面进行匹配,因为.是正则表达式中matches almost any character的特殊字符:

df = df.withColumn('revenue', regexp_replace(col('revenue'), "\\.", ""))