假设我有如下数据,
data['sentences']
This is a sentence
Donald Trump
Machine Learning
Python is good
我想搜索字符模式,如果找到字符,则需要删除包含字符的单词。
假设我要删除" enc" ," ood"和" ump",输出应该是,
data['sentences']
This is a
Donald
Machine Learning
Python is
我尝试了以下使用re.sub,
的地方re.sub("enc", "", y)
但这会产生类似This is a sente
的输出。我不知道如何删除整个单词。
有人帮我做这个是python吗?我想找到有效的方法来做到这一点因为,我想使用pyspark运行这个近10亿条记录。有人可以帮我这么做吗?
由于
答案 0 :(得分:1)
在标识符之前和之后添加迭代:
re.sub(r'\w*enc\w*', '', y)
用空格替换所有字母数字字符以及指定的字符串(即包含在其中的单词)。