我的判决是, "我想把这个字符串删除得那么糟糕。" 我将此文本文件作为
传递text = sc.textFile(...)
我希望过滤掉(即删除)单词" string" 我注意到在python中,有一个" re"包。 我试着做了
RDD.map(lambda x: x.replaceAll("<regular expression>", ""))
过滤掉&#34;字符串&#34;但似乎PySpark中没有这样的功能,因为它给了我一个错误.. 我如何导入&#34; re&#34;包?或者是否有任何其他功能可以用来根据PySpark中的正则表达式删除/过滤掉某些字符串?
答案 0 :(得分:0)
我不确定Spark中文本的具体配置,但一般的方法(对于任何类型的var)都将使用.map()方法。
例如:
RDD.map(lambda s: s.replace("string",""))
答案 1 :(得分:0)
您可以直接导入重新打包,如下所示。
import re
text = sc.textFile(...)
out = re.sub("string", '', text)
print out