dataframe列包含几个带有重复字母的单词。我想从数据框列中删除完全由相同字母组成的单词,并在字母连续重复两次以上的其他情况下,使该字母首次出现。 df-
id text
1 aaaa
2 bb
3 wwwwwwww
4 Hellooooo
5 See youuuu
输出
id text
1
2
3
4 Hello
5 See you
答案 0 :(得分:0)
如果您不喜欢我的正则表达式,可以继续学习,虽然效率不高,但是您会明白的。
s = 'Seee youuuu sooooon'
def word_precess(s):
c = ''
flag = ''
counter = 0
for i, letter in enumerate(s):
if letter == flag:
counter += 1
if counter > 2:
continue # start the loop from beginning
else:
flag = letter
counter = 1
c = c + letter
return c
print(word_precess(s))
输出>>>
See youu soon
请注意:结果中包含带有两个“ u”的“ Youu”,而不是“很快见”,这仅仅是因为我无法使脚本理解单词的含义。