如何删除字符串中重复两次以上的字符?

时间:2018-01-08 04:30:42

标签: python nltk

例如,我想删除重复的字符,如 自hhhaaappy以及hhaappy重复两次后ha。 我想删除重复两次以上的所有字符。 如何在python中快速实现它?

此外,是否有任何python模块可以纠正这个词? 喜欢纠正hhhaaappyhappy

2 个答案:

答案 0 :(得分:5)

您可以使用itertools.groupby

import itertools
s = "hhhaaappy"
new_s = [(a, list(b)) for a, b in itertools.groupby(s)]
final_s = ''.join(''.join(b[:-1]) if len(b) > 2 else ''.join(b) for a, b in new_s)

输出:

'hhaappy'

答案 1 :(得分:2)

我认为分享这个很酷。模块名为autocorrect

通过使用Candidate Model,通过执行"简单编辑"到了这个词。例如,它处理" 删除 - >删除字母"," 转置 - >交换两个相邻字母&#34 ;," 替换 - >将一个字母更改为另一个字母"," 插入 - >添加一个字母"。

因此,hhhaaappy可能不起作用,但hhapyhhapppy可行。

>>> from autocorrect import spell
>>> spell('hhhaaappy')
'hhhaaappy'
>>> spell('hhapy')
'shapy'
>>> spell('happpy')
'happy'
>>> spell('hhapppy')
'happy'