Question

我有一个表格

的字符串

'---EECCCC---CCEEECCC-------EEEEECCEECC-----'

我希望在之前和之后的C中提取所有＆＃34; EECC＆＃34;以及任何＆＃39;那将是：

['EECCCC', 'EEECCC', 'EEEEECC','EECC'].

我觉得使用python的正则表达式包必须有一个简单的方法，但我无法掌握它。有任何想法吗？：）

Answer 1

您可能正在搜索的正则表达式规则如下：

E*EECCC*

哪个可以转换为＆＃34;零个或多个E，然后是字符串文字＆＃39; EECC＆＃39;然后是零或多个C＆＃34;。

要在python中提取匹配项，您应该使用re模块中的findall方法：

import re
s = "---EECCCC---CCEEECCC-------EEEEECCEECC----"
print(re.findall("E*EECCC*", s))

输出将是：

['EECCCC', 'EEECCC', 'EEEEECC', 'EECC']

一个提示是，您可以在某些网站（例如http://www.regextester.com/）在线测试您的正则表达式规则，这可能在将来帮助您; - ）