AWK中的正则表达式不接受懒惰选择

时间:2014-01-23 13:49:28

标签: regex awk

我有以下文本文件,我想从中提取" NAME ="以及第一个","或")"字符。

  AZTBCM         = (CURVE=(NAME=AZTBCM), -SOME TEXT
  B08M           = (CURVE=(NAME=B08M), -  SOME TEXT
  YMOD         = (CURVE=(NAME=YMOD), - SOME TEXT
  ZCCP         = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT

角色范围和懒惰的选择然而在gensub不会像nedit那样工作。在下面的awk-script文件中,您可以找到我尝试的不同行

#! /bin/awk -f
{name=gensub(/.*NAME=(.*?)[,)].*/,"\\1","g",$0); print "line1 "name}        #line1
{name=gensub(/.*NAME=([:alnum:]*?)[,)].*/,"\\1","g",$0); print "line2 "name}    #line2
{name=gensub(/.*NAME=([0-z ]*?)[,)].*/,"\\1","g",$0); "line3 "print name}   #line3
{name=gensub(/.*NAME=([0-z Z]*?)[,)].*/,"\\1","g",$0); "line4 "print name}  #line4
{name=gensub(/.*NAME=([0-Z0-9]*?)[,)].*/,"\\1","g",$0); "line5 "print name} #line5

这产生以下结果:

line1 AZTBCM)
line2       AZTBCM         = (CURVE=(NAME=AZTBCM), -SOME TEXT
line3       AZTBCM         = (CURVE=(NAME=AZTBCM), -SOME TEXT
line4 AZTBCM
line5 AZTBCM
line1 B08M)
line2       B08M           = (CURVE=(NAME=B08M), -  SOME TEXT
line3 B08M
line4 B08M
line5 B08M
line1 YMOD)
line2       YMOD         = (CURVE=(NAME=YMOD), - SOME TEXT
line3 YMOD
line4 YMOD
line5 YMOD
line1 ZCCP, CURVE TYPE= GAMMA)
line2       ZCCP         = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line3       ZCCP         = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line4 ZCCP
line5 ZCCP

第1行只返回包含")"的名称。我的懒惰限定符本应该阻止这个。使用相同选择/替换的Nedit只给出了名称。看看ZCCP案例,它甚至似乎继续捕获并包括最后一个括号。

Line2不返回匹配项,因此返回$ 0。也无法让这个在Nedit中发挥作用。(似乎没有支持,那没关系)

Line3应该取零以降低ascii表的z。这对我来说是最奇怪的失败。因为我加载了更多的行,只有在名称中有Z时才会失败。即使在像我的角色范围中的终止角色这样的低级别上也没有。

第4行我添加了空格和Z(实际上不需要空格)以查看角色范围是否由于某种未知原因而错过了它。似乎有一个,因为它现在再次起作用。 忘记第5行:)

在第一行的情况下,是否有人可以解释这种捕获的工作原理?我不明白为什么它会推动第一个括号。其次,为什么我的角色范围不包括" Z"?

干杯,Robbert

PS这个问题似乎是两个折叠。所以我改变了这篇文章的标题,关于什么是答案。

2 个答案:

答案 0 :(得分:5)

您可能使用了否定的字符类,而不是尝试使用延迟量词。话说:

awk '{name=gensub(/.*NAME=([^,)]*).*/,"\\1","g",$0); print "line1 "name}' filename

会为您的输入产生以下内容:

line1 AZTBCM
line1 B08M
line1 YMOD
line1 ZCCP

答案 1 :(得分:2)

鉴于此评论: My question is more academic as to why it does not work for awk lines 1 and 3. I just can't find any logic to it.

以下是这些行中使用的RE的含义:

.*NAME=(.*?)[,)].*

从行的开头到NAME =后跟任何重复0次或更多次的字符,然后重复0次或更多次(是没有意义),然后是a,或)后跟任何重复0次或更多次的字符。因此,()中的部分将与NAME=之后的字符匹配到该行的最后,)之前的字符。

.*NAME=([0-z ]*?)[,)].*

从行的开头到NAME =后跟0z范围内的任何字符(无论你的语言环境是什么意思 - 它可能是也可能不是Glenn Jackman给出的列表在他的评论中,但它会是类似的东西)或空白的字母重复0次或更多次,然后重复0次或更多次(是没有意义),然后是a,或)后跟任何重复0次或更多次的字符。因此,()中的部分将匹配NAME=之后的字符与最后,)之前的字符或第一次出现的字符不匹配在线上指定范围。

哦,至于为什么Z未包含在您的范围0-z中 - 该范围内的字符取决于您的语言区域。 a-z例如可以是abc...z,也可以是aAbBcC...z(即不包括Z)。使用POSIX字符类而不是显式范围来实现可移植性,例如: [[:lower:]][[:upper:]][[:alpha:]]