Question

我的判决是，＆＃34;我想把这个字符串删除得那么糟糕。＆＃34; 我将此文本文件作为

传递

text = sc.textFile(...)

我希望过滤掉（即删除）单词＆＃34; string＆＃34; 我注意到在python中，有一个＆＃34; re＆＃34;包。我试着做了

RDD.map(lambda x: x.replaceAll("<regular expression>", ""))

过滤掉＆＃34;字符串＆＃34;但似乎PySpark中没有这样的功能，因为它给了我一个错误.. 我如何导入＆＃34; re＆＃34;包？或者是否有任何其他功能可以用来根据PySpark中的正则表达式删除/过滤掉某些字符串？

Answer 1

我不确定Spark中文本的具体配置，但一般的方法（对于任何类型的var）都将使用.map（）方法。

例如：

RDD.map(lambda s: s.replace("string",""))

Answer 2

您可以直接导入重新打包，如下所示。

import re

text = sc.textFile(...)

out = re.sub("string", '', text)
print out