使用python从文件中提取带有字符串的行

时间:2018-11-28 17:02:17

标签: python regex

团队,

我想使用一个字符串(以tg_开头)从文件中提取一些行,并根据正则表达式获取输出。.问题是,

  1. 如果2行以\结尾,我不确定如何提取行,如下所示。

  2. 我不知道如何使用正则表达式下面的以下内容删除特殊字符。

  

*****来自文件*******

     

tg_cr_counters dghbvcvgfv

     

tg_kk_bb a group1再见再见嗨嗨1 \ <<<<< br />               修补程序mac hdfh f dgf asadasf \
              dgfgmnhnjgfg

     

tg_cr_counters gthghtrhgh}}] <<<<<< / p>      

tg_cr_counters fkgnfkmngvd

import re

file = open("C:\\Users\\input.tcl", "r")
f1 = file.readlines()

output = open("extract.txt", "a+")

match_list = [ ]   

for item in f1:

    match_list = re.findall(r'[t][g][_]+\w+.*', item)
    if(len(match_list)>0):
        output.write(match_list[0]+"\r\n")
        print(match_list)

1 个答案:

答案 0 :(得分:1)

您可以对re.MULTILINEre.DOTALL使用带有标志的正则表达式。

这样,.也将与\n匹配,并且您可以查找以tg_开头(无需将每个都放在[]中)和以双\n\n(或文本结尾)\Z

fn = "t.txt"
with open (fn,"w") as f: 
    f.write("""*****from a file*******

tg_cr_counters dghbvcvgfv

tg_kk_bb a group1 bye bye bye hi hi hi 1 \ <<<<
patch mac hdfh f dgf asadasf \
dgfgmnhnjgfg

tg_cr_counters gthghtrhgh }} ] <<<<<

tg_cr_counters fkgnfkmngvd
""")

import re

with open("extract.txt", "a+") as o, open(fn) as f:
    for m in re.findall(r'^tg_.*?(?:\n\n|\Z)', f.read(), flags=re.M|re.S):
        o.write("-"*40+"\r\n")
        o.write(m)
        o.write("-"*40+"\r\n")

with open("extract.txt")as f:
    print(f.read())

输出(每次匹配都在一行----------------------------------------之间)

----------------------------------------
tg_cr_counters dghbvcvgfv

----------------------------------------
----------------------------------------
tg_kk_bb a group1 bye bye bye hi hi hi 1 \ <<<<
patch mac hdfh f dgf asadasf dgfgmnhnjgfg

----------------------------------------
----------------------------------------
tg_cr_counters gthghtrhgh }} ] <<<<<

----------------------------------------
----------------------------------------
tg_cr_counters fkgnfkmngvd
----------------------------------------

re.findall()结果如下:

['tg_cr_counters dghbvcvgfv\n\n', 
 'tg_kk_bb a group1 bye bye bye hi hi hi 1 \\ <<<<\npatch mac hdfh f dgf asadasf dgfgmnhnjgfg\n\n', 
 'tg_cr_counters gthghtrhgh }} ] <<<<<\n\n', 
 'tg_cr_counters fkgnfkmngvd\n']

要启用多行搜索,您需要一次读入多行内容-如果您的文件是 humongeous ,这将导致内存问题。