我有一个表格
的字符串'---EECCCC---CCEEECCC-------EEEEECCEECC-----'
我希望在之前和之后的C中提取所有" EECC"以及任何'那将是:
['EECCCC', 'EEECCC', 'EEEEECC','EECC'].
我觉得使用python的正则表达式包必须有一个简单的方法,但我无法掌握它。有任何想法吗? :)
答案 0 :(得分:2)
您可能正在搜索的正则表达式规则如下:
E*EECCC*
哪个可以转换为"零个或多个E,然后是字符串文字' EECC'然后是零或多个C"。
要在python中提取匹配项,您应该使用re模块中的findall方法:
import re
s = "---EECCCC---CCEEECCC-------EEEEECCEECC----"
print(re.findall("E*EECCC*", s))
输出将是:
['EECCCC', 'EEECCC', 'EEEEECC', 'EECC']
一个提示是,您可以在某些网站(例如http://www.regextester.com/)在线测试您的正则表达式规则,这可能在将来帮助您; - )