我有以下文本文件,我想从中提取" NAME ="以及第一个","或")"字符。
AZTBCM = (CURVE=(NAME=AZTBCM), -SOME TEXT
B08M = (CURVE=(NAME=B08M), - SOME TEXT
YMOD = (CURVE=(NAME=YMOD), - SOME TEXT
ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
角色范围和懒惰的选择然而在gensub不会像nedit那样工作。在下面的awk-script文件中,您可以找到我尝试的不同行
#! /bin/awk -f
{name=gensub(/.*NAME=(.*?)[,)].*/,"\\1","g",$0); print "line1 "name} #line1
{name=gensub(/.*NAME=([:alnum:]*?)[,)].*/,"\\1","g",$0); print "line2 "name} #line2
{name=gensub(/.*NAME=([0-z ]*?)[,)].*/,"\\1","g",$0); "line3 "print name} #line3
{name=gensub(/.*NAME=([0-z Z]*?)[,)].*/,"\\1","g",$0); "line4 "print name} #line4
{name=gensub(/.*NAME=([0-Z0-9]*?)[,)].*/,"\\1","g",$0); "line5 "print name} #line5
这产生以下结果:
line1 AZTBCM)
line2 AZTBCM = (CURVE=(NAME=AZTBCM), -SOME TEXT
line3 AZTBCM = (CURVE=(NAME=AZTBCM), -SOME TEXT
line4 AZTBCM
line5 AZTBCM
line1 B08M)
line2 B08M = (CURVE=(NAME=B08M), - SOME TEXT
line3 B08M
line4 B08M
line5 B08M
line1 YMOD)
line2 YMOD = (CURVE=(NAME=YMOD), - SOME TEXT
line3 YMOD
line4 YMOD
line5 YMOD
line1 ZCCP, CURVE TYPE= GAMMA)
line2 ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line3 ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line4 ZCCP
line5 ZCCP
第1行只返回包含")"的名称。我的懒惰限定符本应该阻止这个。使用相同选择/替换的Nedit只给出了名称。看看ZCCP案例,它甚至似乎继续捕获并包括最后一个括号。
Line2不返回匹配项,因此返回$ 0。也无法让这个在Nedit中发挥作用。(似乎没有支持,那没关系)
Line3应该取零以降低ascii表的z。这对我来说是最奇怪的失败。因为我加载了更多的行,只有在名称中有Z时才会失败。即使在像我的角色范围中的终止角色这样的低级别上也没有。
第4行我添加了空格和Z(实际上不需要空格)以查看角色范围是否由于某种未知原因而错过了它。似乎有一个,因为它现在再次起作用。 忘记第5行:)
在第一行的情况下,是否有人可以解释这种捕获的工作原理?我不明白为什么它会推动第一个括号。其次,为什么我的角色范围不包括" Z"?
干杯,Robbert
PS这个问题似乎是两个折叠。所以我改变了这篇文章的标题,关于什么是答案。答案 0 :(得分:5)
您可能使用了否定的字符类,而不是尝试使用延迟量词。话说:
awk '{name=gensub(/.*NAME=([^,)]*).*/,"\\1","g",$0); print "line1 "name}' filename
会为您的输入产生以下内容:
line1 AZTBCM
line1 B08M
line1 YMOD
line1 ZCCP
答案 1 :(得分:2)
鉴于此评论:
My question is more academic as to why it does not work for awk lines 1 and 3. I just can't find any logic to it.
以下是这些行中使用的RE的含义:
.*NAME=(.*?)[,)].*
从行的开头到NAME =后跟任何重复0次或更多次的字符,然后重复0次或更多次(是没有意义),然后是a,或)后跟任何重复0次或更多次的字符。因此,()
中的部分将与NAME=
之后的字符匹配到该行的最后,
或)
之前的字符。
.*NAME=([0-z ]*?)[,)].*
从行的开头到NAME =后跟0
到z
范围内的任何字符(无论你的语言环境是什么意思 - 它可能是也可能不是Glenn Jackman给出的列表在他的评论中,但它会是类似的东西)或空白的字母重复0次或更多次,然后重复0次或更多次(是没有意义),然后是a,或)后跟任何重复0次或更多次的字符。因此,()
中的部分将匹配NAME=
之后的字符与最后,
或)
之前的字符或第一次出现的字符不匹配在线上指定范围。
哦,至于为什么Z
未包含在您的范围0-z
中 - 该范围内的字符取决于您的语言区域。 a-z
例如可以是abc...z
,也可以是aAbBcC...z
(即不包括Z
)。使用POSIX字符类而不是显式范围来实现可移植性,例如: [[:lower:]]
,[[:upper:]]
,[[:alpha:]]
等