Question

dataframe列包含几个带有重复字母的单词。我想从数据框列中删除完全由相同字母组成的单词，并在字母连续重复两次以上的其他情况下，使该字母首次出现。 df-

id   text
1     aaaa
2     bb
3     wwwwwwww
4     Hellooooo
5     See youuuu

输出

id   text
1     
2     
3   
4    Hello
5    See you

Answer 1

如果您不喜欢我的正则表达式，可以继续学习，虽然效率不高，但是您会明白的。

s = 'Seee youuuu sooooon'

def word_precess(s):
    c = ''
    flag = ''
    counter = 0
    for i, letter in enumerate(s):
        if letter == flag:
            counter += 1
            if counter > 2:
                continue  # start the loop from beginning
        else:
            flag = letter
            counter = 1
        c = c + letter

    return c

print(word_precess(s))

输出>>>

See youu soon

请注意：结果中包含带有两个“ u”的“ Youu”，而不是“很快见”，这仅仅是因为我无法使脚本理解单词的含义。

如何删除由重复的字母组成的单词

1 个答案: