我有大文本文件,其中包含大量文本信息,但我想在两个已定义的文本之间提取文本。 例如
/begin MEASUREMENT XYZ
UBYTE
_CNV_A_R_LINEAR_____71_CM
1
100.
-40.
160.
FORMAT "%3.0"
SYMBOL_LINK "XYZ" 0
/begin IF_DATA EVTRKMNBXERTBK
DEFAULT_RASTERS 3 3
/end IF_DATA
/end MEASUREMENT
即/在这之间开始测量和/结束测量我想提取文本。
我的代码是:
import re
path = r"d:\xyz.txt"
file = open(path, 'r')
lines = file.read()
pattern = re.compile(r'begin MEASUREMENT[\s][\w+](.*?)end MEASUREMENT')
print re.findall(pattern, lines)
答案 0 :(得分:1)
使用(?s)
,这会将多行视为一行。因此,点匹配所有字符,包括换行符。
pattern = re.compile(r'(?s)begin MEASUREMENT[\s](.*?)end MEASUREMENT')
所以试试这个,
import re
path = "py.txt"
file = open(path, 'r')
lines = file.read()
pattern = re.compile(r'(?s)begin MEASUREMENT[\s](.*?)end MEASUREMENT')
result = re.findall(pattern, lines)
print result[0]
<强> EDITED 强>
t = "XYZ"
pattern = re.compile(r'(?s)begin MEASUREMENT\s+((%s).*?)end MEASUREMENT'%t)
答案 1 :(得分:0)
试试这个:
text ="""
/begin MEASUREMENT XYZ
UBYTE
_CNV_A_R_LINEAR_____71_CM
1
100.
-40.
160.
FORMAT "%3.0"
SYMBOL_LINK "XYZ" 0
/begin IF_DATA EVTRKMNBXERTBK
DEFAULT_RASTERS 3 3
/end IF_DATA
/end MEASUREMENT"""
print text.split("/begin MEASUREMENT")[1].split("/end MEASUREMENT")[0]