PySpark 2-正则表达式替换<br/>之前的所有内容

时间:2018-08-07 22:03:43

标签: python apache-spark pyspark apache-spark-2.0

我有一条类似

的记录
"_row"\n"<BR>Datetime:2018.06.30^
Name:ABC^
Se:4^
Machine:XXXXXXX^
InnerTrace:^
AdditionalInfo:^
<ER>

我想删除每条记录中
之前的所有内容。是否有一种简单的方法可以通过spark数据框

import pyspark.sql.functions as f

data.select(f.regexp_replace(pattern='\n<BR>',replacement="<BR>",str="row")

像这样?模式应该是什么?

1 个答案:

答案 0 :(得分:1)

要匹配所有字符直到字符串开头,可以使用.*<BR>。但是,这与换行符(\n)不匹配。我为该here找到了解决方案,因此我们的模式可以为(?s).*<BR>。下面给出一个可行的示例,希望对您有所帮助!

import pyspark.sql.functions as F

df = spark.createDataFrame([('''"_row"\n"<BR>Datetime:2018.06.30^
Name:ABC^
Se:4^
Machine:XXXXXXX^
InnerTrace:^
AdditionalInfo:^
<ER>''',), ],schema=['text'])

df = df.withColumn('text_cleaned',
               F.regexp_replace(F.col('text'),pattern='(?s).*<BR>',replacement="<BR>"))

让我们验证一下是否有效;

print(df.select('text').collect()[0][0])

输出

"_row"
"<BR>Datetime:2018.06.30^
Name:ABC^
Se:4^
Machine:XXXXXXX^
InnerTrace:^
AdditionalInfo:^
<ER>

print(df.select('text_cleaned').collect()[0][0])

输出:

<BR>Datetime:2018.06.30^
Name:ABC^
Se:4^
Machine:XXXXXXX^
InnerTrace:^
AdditionalInfo:^
<ER>