字节“字符串”中字符的正则表达式模式,除了特定的标点符号 - Python3

时间:2017-03-09 15:53:50

标签: python regex python-3.x

我有一个必须以二进制形式读取的文本文件才能工作。我试图提取一些数据并放入csv文件。

某些文字的示例如下:

  

b'“标题;”“日期”“;”“摘要”“;”“专利号”“;”“id”“”\ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\吨\ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t \ t“我发明的目的是减少这种减少的速度或数量,我通过增加一个新步骤来减少这种减少制造灯的过程如下:灯泡排出空气并通过排气管以通常的方式熔化密封后,我连接灯“”;“”12234“”;“” ; 1.0“'

我想在“;”之间提取片段并尝试了以下内容:

contentRegex = re.compile(b'\s{4,}"([\w+\s]+);(\d{4})\.\d;""([\w+\s+]+)"(.+[^;])')

它似乎工作得很好,除了最后一部分,它继续在第一个“;”之后抓取文本它看到了。所以下面的正则表达式似乎是错误的:

(.+[^;])

我很感激任何帮助!

由于

1 个答案:

答案 0 :(得分:0)

如果您确实需要使用regexp,请尝试以下方法: ;(.*?); 要么 ;([a-zA-Z"]*?);