Python - 消除csv文件中的正则表达式匹配

时间:2017-09-28 04:47:35

标签: python regex csv

我有一个文件'in.csv',其中包含许多条目,如下所示:

[Part 1: A]
Was hab’ ich nur getan?
Hab mich selbst nie hinterfragt
Wer bin ich, wer bin ich, wer bin ich, was bin ich bloß?
Aaaah - wer bin ich, was bin ich bloß?
Ging es all die Zeit lang wirklich nur um mich?
Nur um mich, nur um mich, nur um mich?
Denk’ ich wirklich immer nur an mich?
Nur an mich, nur an mich, nur an mich?

[Part 2: T]
Ich bin so horrible, horrible, horrible
Fehler einzusehen ist mir nicht possible, possible, possible
Jaaah - doch ich denk’ jeden Tag an all den Shit, den ich getan hab’
Warum unterschätz’ ich meinen Impact auf die andern?
Homie, sag mir, warum ficke ich mein Karma
Und geb kein’ Fick auf alles, was die Stimme in mir labert?
Blockiert mich da mein Ego oder weiß ich es nicht besser?
Mann, wann verdammt fühl ich mich bereit etwas zu ändern?
Warum lass’ ich einfach nichts mehr an mich ran?
Warum lass’ ich selbst mich selbst nicht an mich ran?
,1

(...)

我希望找到并消除所有这种模式:

match = "[\(\[].*?[\)\]]"

我正在尝试这个:

with open('in.csv', 'rb') as in_file, open('out.csv', 'wb') as out_file:
     reader = csv.reader(in_file, delimiter='\t')
     for item in list(reader):
         re.sub(match, ' ', item, flags=re.MULTILINE)      
         out_file.write(item)

但它不起作用。我该如何寻找并消除所有[]

1 个答案:

答案 0 :(得分:1)

问题是你对结果一无所知,表达是正确的:

with open('in.csv', 'rb') as in_file, open('out.csv', 'wb') as out_file:
     reader = csv.reader(in_file, delimiter='\t')
     for item in list(reader):
         item = re.sub(match, ' ', item, flags=re.MULTILINE) 
         # ---^---     
         out_file.write(item)

sub函数不会更改原始字符串,而是返回一个新副本,因此您需要捕获它。您甚至可以通过添加锚来改善您的表达:

^[\(\[].*?[\)\]]

它显着减少了所需的步骤(10次!),请参阅a demo on regex101.com