如何删除由重复的字母组成的单词

时间:2019-03-30 22:06:29

标签: python regex nlp

dataframe列包含几个带有重复字母的单词。我想从数据框列中删除完全由相同字母组成的单词,并在字母连续重复两次以上的其他情况下,使该字母首次出现。 df-

id   text
1     aaaa
2     bb
3     wwwwwwww
4     Hellooooo
5     See youuuu

输出

id   text
1     
2     
3   
4    Hello
5    See you 

1 个答案:

答案 0 :(得分:0)

如果您不喜欢我的正则表达式,可以继续学习,虽然效率不高,但是您会明白的。

s = 'Seee youuuu sooooon'

def word_precess(s):
    c = ''
    flag = ''
    counter = 0
    for i, letter in enumerate(s):
        if letter == flag:
            counter += 1
            if counter > 2:
                continue  # start the loop from beginning
        else:
            flag = letter
            counter = 1
        c = c + letter

    return c

print(word_precess(s))

输出>>>

See youu soon

请注意:结果中包含带有两个“ u”的“ Youu”,而不是“很快见”,这仅仅是因为我无法使脚本理解单词的含义。