如果字符串单词包含特定字符并删除包含字符的单词

时间:2016-09-06 17:49:02

标签: python python-2.7 python-3.x

假设我有如下数据,

data['sentences']

This is a sentence
Donald Trump
Machine Learning
Python is good

我想搜索字符模式,如果找到字符,则需要删除包含字符的单词。

假设我要删除" enc" ," ood"和" ump",输出应该是,

data['sentences']

This is a 
Donald 
Machine Learning
Python is 

我尝试了以下使用re.sub,

的地方
re.sub("enc", "", y)

但这会产生类似This is a sente的输出。我不知道如何删除整个单词。

有人帮我做这个是python吗?我想找到有效的方法来做到这一点因为,我想使用pyspark运行这个近10亿条记录。有人可以帮我这么做吗?

由于

1 个答案:

答案 0 :(得分:1)

在标识符之前和之后添加迭代:

re.sub(r'\w*enc\w*', '', y)

用空格替换所有字母数字字符以及指定的字符串(即包含在其中的单词)。