Question

我有大文本文件，其中包含大量文本信息，但我想在两个已定义的文本之间提取文本。例如

    /begin MEASUREMENT XYZ
        UBYTE
        _CNV_A_R_LINEAR_____71_CM
        1
        100.
        -40.
        160.
        FORMAT "%3.0"
        SYMBOL_LINK "XYZ" 0
/begin IF_DATA EVTRKMNBXERTBK 
    DEFAULT_RASTERS 3 3
/end IF_DATA 
    /end MEASUREMENT

即/在这之间开始测量和/结束测量我想提取文本。

我的代码是：

import re
path = r"d:\xyz.txt"
file = open(path, 'r')
lines = file.read()
pattern = re.compile(r'begin MEASUREMENT[\s][\w+](.*?)end MEASUREMENT')
print re.findall(pattern, lines)

Answer 1

使用(?s)，这会将多行视为一行。因此，点匹配所有字符，包括换行符。

pattern = re.compile(r'(?s)begin MEASUREMENT[\s](.*?)end MEASUREMENT')

所以试试这个，

import re
path = "py.txt"
file = open(path, 'r')
lines = file.read()
pattern = re.compile(r'(?s)begin MEASUREMENT[\s](.*?)end MEASUREMENT')
result = re.findall(pattern, lines)
print result[0]

<强> EDITED

t = "XYZ"
pattern = re.compile(r'(?s)begin MEASUREMENT\s+((%s).*?)end MEASUREMENT'%t)

Answer 2

试试这个：

text ="""
    /begin MEASUREMENT XYZ
        UBYTE
        _CNV_A_R_LINEAR_____71_CM
        1
        100.
        -40.
        160.
        FORMAT "%3.0"
        SYMBOL_LINK "XYZ" 0
/begin IF_DATA EVTRKMNBXERTBK 
    DEFAULT_RASTERS 3 3
/end IF_DATA 
    /end MEASUREMENT"""

print text.split("/begin MEASUREMENT")[1].split("/end MEASUREMENT")[0]

在两个定义文本之间提取文本信息

2 个答案: