截断某个字符python之前和之后的文本

时间:2018-04-15 14:33:33

标签: python regex text truncate

我有大文本,我正在阅读python,

文本格式为:

blablabla
***** END HEADER ******

valid content


***** start footer *****
blablalba

我需要删除所有文本中的页眉和页脚,删除所有字符串,直到***** END HEADER *****和*****之后的所有内容启动页脚*****

任何帮助将不胜感激

到目前为止我试过这个:

import re

chop = re.compile('(/.+)*** END HEADER *****', re.DOTALL)

data_chopped = chop.sub('', text_file)

但我一直收到错误:

sre_constants.error: multiple repeat at position

1 个答案:

答案 0 :(得分:0)

可能还有其他有效方法,一种方法可能是尝试使用多个拆分:

txt = """blablabla
***** END HEADER ******

valid content


***** start footer *****
blablalba
"""

# split the header and take the second section of split
tmp = ''.join(txt.split('***** END HEADER ******')[1])
# split by footer and take the first section of split
tmp2 = ''.join(tmp.split('***** start footer *****')[0])
result = tmp2.strip()
print(result)

结果:

'valid content'