我的字符串看起来像这个例子: “AAABBBCDEEEEBBBAA”
字符串中可以包含任何字符。
我想将其拆分为以下列表: [ 'AAA', 'BBB', 'C', 'd', 'EEEE', 'BBB', 'AA']
所以相同字符的每个连续段都会转到拆分列表的单独元素。
我知道我可以遍历字符串中的字符,检查每个i和i-1对,如果它们包含相同的字符等,但是那里有更简单的解决方案吗?
答案 0 :(得分:15)
我们可以使用正则表达式:
>>> import re
>>> r = re.compile(r'(.)\1*')
>>> [m.group() for m in r.finditer('AAABBBCDEEEEBBBAA')]
['AAA', 'BBB', 'C', 'D', 'EEEE', 'BBB', 'AA']
或者,我们可以使用itertools.groupby
。
>>> import itertools
>>> [''.join(g) for k, g in itertools.groupby('AAABBBCDEEEEBBBAA')]
['AAA', 'BBB', 'C', 'D', 'EEEE', 'BBB', 'AA']
timeit
显示正则表达式更快(针对此特定字符串)(Python 2.6,Python 3.1)。但是Regex毕竟是专门用于字符串的,groupby
是一个通用函数,所以这并不是那么出乎意料。
答案 1 :(得分:9)
>>> from itertools import groupby
>>> [''.join(g) for k, g in groupby('AAAABBBCCD')]
['AAAA', 'BBB', 'CC', 'D']
通过正常的字符串操作
>>> a=[];S="";p=""
>>> s
'AAABBBCDEEEEBBBAA'
>>> for c in s:
... if c != p: a.append(S);S=""
... S=S+c
... p=c
...
>>> a.append(S)
>>> a
['', 'AAA', 'BBB', 'C', 'D', 'EEEE', 'BBB', 'AA']
>>> filter(None,a)
['AAA', 'BBB', 'C', 'D', 'EEEE', 'BBB', 'AA']
答案 2 :(得分:3)
import itertools
s = "AAABBBCDEEEEBBBAA"
["".join(chars) for _, chars in itertools.groupby(s)]
答案 3 :(得分:0)
解决问题的另一种方法是:
#!/usr/bin/python
string = 'AAABBBCDEEEEBBBAA'
memory = str()
List = list()
for index, element in enumerate(string):
if index > 0:
if string[index] == string[index - 1]:
memory += string[index]
else:
List.append(memory)
memory = element
else:
memory += element
print List