删除python中字符串中除了一个单词之外的所有单词

时间:2016-08-22 08:40:11

标签: python python-3.x

我有一个字符串例如“Free Visual Studio开发者提供的优惠提供了创建应用程序所需的一切” 我想要做的是“优惠”顺序发生4次;我想保留“优惠”一次,并删除所有其他发生。 这只是一个示例字符串,我有一个数据集,其中这样的情况是相同的单词顺序出现不止一次, 请帮我一个方法来删除其他这样的单词并保留一个单词并生成一个结果字符串

1 个答案:

答案 0 :(得分:0)

您可以使用正则表达式查找重复单词并删除多余单词:

>>> import re
>>> s = 'Free Visual Studio developer offers offers offers offers with everything you need to create apps'
>>> re.sub(r'\b(\w+\s)(\1+)', '\\1', s)
'Free Visual Studio developer offers with everything you need to create apps'