将多个正则表达式合并为一个可以全部捕获它们的正则表达式#34;

时间:2014-04-23 04:42:28

标签: python regex

我有这个特定的问题,我必须找到一些正则表达式 匹配我们的部署系统中的包。所以现在我有一些 奇怪的构造像这样:

def myPkgs():
  txt = sys.argv # self.myPKG
                txt.pop(0)
                pkg_dict = {"Package" : "", "Version" : ""}
                pkg_list = []

                for i in txt:
                        re0= "^([a-zA-Z,0-9]*)(-|.)([0-9]*[.|-][0-9]*[.|-][0-9])([.][noarch]*)"
                        re1 = "^([a-z]*)(-|.)([a-zA-Z,0-9]*)(-|.)([0-9]*[0-9].....??)(-|.)([A-Z,0-9]*)([.][noarch]*)"
                        re2 = "^([a-z]*)(-|.)([a-zA-Z,0-9]*)(-|.)([0-9]*[0-9].....??[-|.][A-Z,0-9]*)"
                        rg0 = re.compile(re0)
                        rg1 = re.compile(re1)
                        rg2 = re.compile(re2)
                        m = rg0.search(i)
                        n = rg1.search(i)
                        o = rg2.search(i)

                        if m:
                                pkg_dict["Package"] = str(m.group(1))
                                pkg_dict["Version"] = str(m.group(3))

                                pkg_list.append(pkg_dict)
                        elif not m:
                                if n:
                                        pkg_dict["Package"] = str(n.group(1) +n.group(2)+ n.group(3))
                                        pkg_dict["Version"] = str(n.group(5) +n.group(6)+n.group(7))
                                        pkg_list.append(pkg_dict)
                                elif not n:
                                        if o:
                                                pkg_dict["Package"] = str(o.group(1) + o.group(2) + o.group(3))
                                                pkg_dict["Version"] = str(o.group(5))
                                                pkg_list.append(pkg_dict)
                                        else:
                                                print "No Packet named: %s found" % i
                                else:
                                        print "No Packet named: %s found" % i
                        else:
                                print "No Packet named: %s found" % i
                        yield pkg_list

但我的问题是我仍然无法准确地提取包名称和 版本号。有没有办法将三种正则表达式模式“合并” 一个可以“抓住所有人”的大正则表达式。要匹配的Packagenames 看起来像这样:

sqlldr-11.2.0.3.0-1.noarch
testbench-2.3-RC3.noarch
tomcat7-34-M1.noarch
uc4-jmx-agent-9.00A124.431-5.x86_64
uc4-jmx-monitoring-1.0-RC1.noarch
uc4-jmx-monitoring-1.0-RC2.noarch
uc4-server-9.00A220_241-2.x86_64
nexus-2.6.0-RC3.noarch
oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64
oracle-instantclient11.2-sqlplus-11.2.0.3.0-1.x86_64
oracle-perl-11.2-RC1.noarch
perl-Crypt-Blowfish_PP-1.12-1:1.noarch
perl-jmx4perl-1.07-1:1.noarch
perl-Test-HTTP-Server-Simple-0.11-1:1.noarch

这个列表应该分成这样的东西:

提前感谢。

修改

好的包裹清单可能是一些误导性的。不要看看noarch / x86_64部分我必须做的事情(脚本最终必须如何工作。在CLI上,用户给出一个包名称,如“perl-jmx4perl-1.07-1:1.noarch”,然后是什么我希望正则表达式做的是将cli arg拆分为“Package”和“Version”,然后funktion首先遍历所有packgaes以匹配名称。之后该函数应迭代版本号以找到确切的版本匹配。或者我想复杂吗?请告诉我。

亲切的问候

修改

sqlldr-11.2.0.3.0-1.noarch
testbench-2.3-RC3.noarch
tomcat7-34-M1.noarch
uc4-jmx-agent-9.00A124.431-5.x86_64
uc4-jmx-monitoring-1.0-RC1.noarch
uc4-jmx-monitoring-1.0-RC2.noarch
uc4-server-9.00A220_241-2.x86_64
nexus-2.6.0-RC3.noarch
oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64
oracle-instantclient11.2-sqlplus-11.2.0.3.0-1.x86_64
oracle-perl-11.2-RC1.noarch
perl-Crypt-Blowfish_PP-1.12-1:1.noarch
perl-jmx4perl-1.07-1:1.noarch
perl-Test-HTTP-Server-Simple-0.11-1:1.noarch

应该变成:

[{'Version': '11.2.0', 'Package': 'sqlldr'}]
[{'Version': '2.3-RC3', 'Package': 'testbench'}]
[{'Version': '7-34-M1', 'Package': 'tomca'}]
[{'Version': '4-jmx-', 'Package': 'u'}]
[{'Version': '4-jmx-', 'Package': 'u'}]
[{'Version': '4-jmx-', 'Package': 'u'}]

但是你可以看到一些重要的部分被解析掉了。因为我不能使用像'4-jmx-'这样的刺痛来进行匹配 针对包存储库。或者像'tomca'应该是'tomcat'所以有没有办法匹配它们? 或者让正则表达式工作变得棘手?因为packge版本(放在包名称字符串里面) 包名称与另一个名称不同。这是否更好地澄清了这一点?而且我也在问自己是否愿意 更容易做出类似模糊匹配的东西......比如找不到完全匹配但是要么取字符串 并做出选择,并让用户决定哪个是正确的包?提前谢谢。

2 个答案:

答案 0 :(得分:1)

看看这个 我测试了所有这些并且工作了

因为所有的包名都以" .noarch"结尾。或" .x86_64"它会抓住所有人

/(\w+[-\.][a-z]?\S+(?:\.noarch)?(?:\..x86_64)?)/

答案 1 :(得分:1)

您可以使用此正则表达式:

^(?P<Package>.*?)-(?P<Version>\d.*?)\.(?:noarch|x86_64)$

描述:

^                   # Match the start of the string
(?P<Package>.*?)    # Match any number of characters and store them in 'Package' until...
-                   # a dash which is followed by...
(?P<Version>\d.*?)  # a digit, followed by any number of characters and store them in 'Version' until...
\.                  # a literal dot, then
(?:noarch|x86_64)   # noarch or x86_64
$                   # Match the end of the string

以下是一个包​​的示例:

>>> pack = "oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64"
>>> reg = re.compile(r"^(?P<package>.*?)-(?P<version>\d.*?)\.(?:noarch|x86_64)$")
>>> m = reg.match(pack)
>>> m.groupdict()
{'package': 'oracle-instantclient11.2-basic', 'version': '11.2.0.3.0-1'}

在您的代码中,我相信它可能是这样的:

def myPkgs():
    txt = sys.argv # self.myPKG
    reg = re.compile(r"^(?P<Package>.*?)-(?P<Version>\d.*?)\.(?:noarch|x86_64)$")

    pkg_list = []

    for i in txt:
        m = reg.match(i)
        if m:
            pkg_dict = m.groupdict()
            pkg_list.append(pkg_dict)
        else:
            print "No Packet named: %s found" % i

        yield pkg_list

对于评论中的包,这个正则表达式可以解决它,但我不知道其他包,如果它们会破坏它:

^(?P<package>.*?)-(?P<version>\d+\b.*?)\.(?:noarch|x86_64)