如何在PySpark RDD中替换/删除正则表达式?

时间:2017-10-26 15:04:20

标签: python apache-spark pyspark

我的判决是, "我想把这个字符串删除得那么糟糕。" 我将此文本文件作为

传递
text = sc.textFile(...)

我希望过滤掉(即删除)单词" string" 我注意到在python中,有一个" re"包。 我试着做了

RDD.map(lambda x: x.replaceAll("<regular expression>", ""))

过滤掉&#34;字符串&#34;但似乎PySpark中没有这样的功能,因为它给了我一个错误.. 我如何导入&#34; re&#34;包?或者是否有任何其他功能可以用来根据PySpark中的正则表达式删除/过滤掉某些字符串?

2 个答案:

答案 0 :(得分:0)

我不确定Spark中文本的具体配置,但一般的方法(对于任何类型的var)都将使用.map()方法。

例如:

RDD.map(lambda s: s.replace("string",""))

答案 1 :(得分:0)

您可以直接导入重新打包,如下所示。

import re

text = sc.textFile(...)

out = re.sub("string", '', text)
print out