regx for python

时间:2018-06-15 06:50:47

标签: python regex python-3.7

我正在编写regx,用于从字符串中删除测试限定符和额外分隔符。

我有一些模式如下,

"ID"~"Name"~"DESC"
1~2014~13~"DS"~DF"
1~2014~13~"DS"~"DF" 
"1ABCA~B C"~"ERTE"
"2"~"XYZ"~"ABC~ is~ bother"
"3"~"YYZ"~"MEL O CRÈME DOUGHNUTS RECLASS"
4~"XAA"~"sf~sd sdfsf"
5~"TES"~"SFSFSF"sdfsf"
6~"ABC"SDDSL~"dfadf"

预期的输出是,

ID~Name~DESC
1~2014~13~DS~DF
1~2014~13~DS~DF
1ABCA B C~ERTE
2~XYZ~ABC  is  bother
3~YYZ~MEL O CRÈME DOUGHNUTS RECLASS
4~XAA~sf sd sdfsf
5~TES~SFSFSF"sdfsf
6~ABCSDDSL~dfadf

我在下面写了相同的代码,

import re

delimiter = '~'
pattern = re.compile(r'"' + delimiter + r'"')
pattern1 = re.compile(r'"[^"]*(?:""[^"]*)*"')

with open("source file path here ", "r") as \
        test:
    for line in test:
        fields = re.split(pattern, line)
        print(fields)
        output = ""
        if re.match('^[^"]', line):
            matches = re.findall(pattern1, line)
            print(matches)
            for match in matches:
                line = re.sub(match, re.sub('^["]|["]$', "", match), line)
            print(line)
        else:
            lastfield = fields[-1]
            for field in fields:
                if field != lastfield:
                    field = re.sub('^["]|["]$', "", field)
                    output = output + re.sub('[' + delimiter + ']', " ", field) \
                        + delimiter
                else:
                    field = re.sub('^["]|["]$', "", field)
                    output = output + re.sub('[' + delimiter + ']', " ", field)
        print(output)

寻找优化方式来执行此操作以及处理所有模式的代码。

1 个答案:

答案 0 :(得分:1)

我认为您可以使用

删除所有~内部字段限定符
(?m)(?:(?<=^)|(?<=~))"(.*?)"(?=$|~)

<强>详情

  • (?m) - re.M模式启用^匹配行的开头,$匹配行尾(如果字符串逐行处理则删除)< / LI>
  • (?:(?<=^)|(?<=~)) - 行首或紧接~
  • 之前的位置
  • " - 双引号
  • (.*?) - 第1组:除换行之外的任何0 +字符,尽可能少
  • " - 双引号
  • (?=$|~) - 行尾或紧随其后的位置~

然后使用

删除所有不必要的双引号
(?m)(?:(?<=^)|(?<=~))"|"(?=$|~)|"(?=[^\n"~]+(?:~|$))

<强>详情

  • (?m) - re.M修饰符(如果逐行处理字符串,则删除)
  • (?:(?<=^)|(?<=~))" - 一行开头或~
  • 的双引号
  • "(?=$|~)| - 该行末尾或"
  • 之前的~
  • "(?=[^\n"~]+(?:~|$)) - "后跟1个或多个除LF以外的字符(如果字符串逐行处理则删除),"~然后{ {1}}或行尾。

可以使用一个可以匹配子字符串,然后使用替换回调方法中的~删除所有带有空格的~

请参阅Python demo

.replace('~', ' ')

输出:

import re
rx_0 = r"""(?m)(?:(?<=^)|(?<=~))"(.*?)"(?=$|~)"""
rx = r"""(?m)(?:(?<=^)|(?<=~))"|"(?=$|~)|"(?=[^\n"~]+(?:~|$))"""
s = ("\"ID\"~\"Name\"~\"DESC\"\n"
    "1~2014~13~\"DS\"~DF\"\n"
    "1~2014~13~\"DS\"~\"DF\"\n"
    "\"1ABCA~B C\"~\"ERTE\"\n"
    "\"2\"~\"XYZ\"~\"ABC~ is~ bother\"\n"
    "\"3\"~\"YYZ\"~\"MEL O CRÈME DOUGHNUTS RECLASS\"\n"
    "4~\"XAA\"~\"sf~sd sdfsf\"\n"
    "5~\"TES\"~\"SFSFSF\"sdfsf\"\n"
    "6~\"ABC\"SDDSL~\"dfadf\"")

print( re.sub(rx, "", re.sub(rx_0, lambda x: x.group(1).replace('~', ' '), s)))