我有一个必须以二进制形式读取的文本文件才能工作。我试图提取一些数据并放入csv文件。
某些文字的示例如下:
b'“标题;”“日期”“;”“摘要”“;”“专利号”“;”“id”“”\ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t“我发明的目的是减少这种减少的速度或数量,我通过增加一个新步骤来减少这种减少制造灯的过程如下:灯泡排出空气并通过排气管以通常的方式熔化密封后,我连接灯“”;“”12234“”;“” ; 1.0“'
我想在“;”之间提取片段并尝试了以下内容:
contentRegex = re.compile(b'\s{4,}"([\w+\s]+);(\d{4})\.\d;""([\w+\s+]+)"(.+[^;])')
它似乎工作得很好,除了最后一部分,它继续在第一个“;”之后抓取文本它看到了。所以下面的正则表达式似乎是错误的:
(.+[^;])
我很感激任何帮助!
由于
答案 0 :(得分:0)
如果您确实需要使用regexp,请尝试以下方法:
;(.*?);
要么
;([a-zA-Z"]*?);