需要grep帮助来自一个文件的子串模式并匹配另一个文件以查看模式是否存在

时间:2015-04-17 13:41:01

标签: grep

我有一个像这样的输入平面文件,有很多行:

Apr  3 13:30:02 aag8-ca-acs01-en2 CisACS_01_PassedAuth p1n5ut5s 1 0   Message-Type=Authen OK,User-Name=joe7@it.test.com,NAS-  IP-Address=4.196.63.55,Caller-ID=az-4d-31-89-92-90,EAP Type=17,EAP Type Name=LEAP,Response Time=0,
Apr  3 13:30:02 aag8-ca-acs01-en2 CisACS_01_PassedAuth p1n6ut5s 1 0 Message-Type=Authen OK,User-Name=bobe@jg.test.com,NAS-IP-Address=4.197.43.55,Caller-ID=az-4d-4q-x8-92-80,EAP Type=17,EAP Type Name=LEAP,Response Time=0,
Apr  3 13:30:02 abg8-ca-acs01-en2 CisACS_01_PassedAuth p1n4ut5s 1 0 Message-Type=Authen OK,User-Name=jerry777@it.test.com,NAS-IP-Address=7.196.63.55,Caller-ID=az-4d-n6-4e-y2-90,EAP Type=17,EAP Type Name=LEAP,Response Time=0,
Apr  3 13:30:02 aca8-ca-acs01-en2 CisACS_01_PassedAuth p1n4ut5s 1 0 Message-Type=Authen OK,User-Name=frctom@pe.test.com,NAS-IP-Address=4.196.263.55,Caller-ID=az-4d-x1-d3-c2-90,EAP Type=17,EAP Type Name=LEAP,Response Time=0,
Apr  3 13:30:02 aag8-ca-acs01-en2 CisACS_01_PassedAuth p1n4ut5s 1 0 Message-Type=Authen OK,User-Name=frc77@xed.test.com,NAS-IP-Address=4.136.163.55,Caller-ID=az-4d-4w-b5-s2-90,EAP Type=17,EAP Type Name=LEAP,Response Time=0,
Apr  3 13:30:02 aag8-ca-acs01-en2 CisACS_01_PassedAuth p1n4ut5s 1 0 Message-Type=Authen OK,User-Name=petejg@it.test.com,NAS-IP-Address=4.136.62.55,Caller-ID=az-4e-31-x3-92-c0,EAP Type=17,EAP Type Name=LEAP,Response Time=0

我试图从输入文件中查找电子邮件地址,看看它们是否已存在于主文件中。

主平面文件如下所示:

a44e31999290;frc777o.@it.test.com;20150403
az4d4qx89280;bobe@jg.test.com;20150403
0dbgd0fed04t;rrfuf@us.test.com;20150403
28cbe9191d53;rttuu4en@us.test.com;20150403
az4d4wb5s290;frc77@xed.test.com;20150403
d89695174805;ccis6n@cn.test.com;20150403
s00dbg0fe04t;rrfuuuf@be.test.com;20150403

如果主电子邮件不存在,我想要一个简单的计数。所以使用这些例子我希望看到`count = 5(bobe@jg.test.com& frc77@xed.test.com存在于master中,但其他人不会)。

我尝试了各种grep组合,下面是我最后测试的那个,但它仍然不起作用..我在perl脚本中使用它来首先捕获电子邮件,然后计算它们但是我只是真正需要的是来自输入文件的电子邮件数量,这些电子邮件在主服务器中不存在。

grep -o -P '(?<=User-Name=\).*(?=,NAS-IP-)' $infile $mstr > $new_emails;

任何帮助将不胜感激,谢谢。

1 个答案:

答案 0 :(得分:1)

这不是一个单行,但这对我有用:

for email in $(sed "s/.*User-Name=\(.[^,]*\),.*/\1/g" input.txt); do
grep -oc $email master.txt
done | sort | uniq -c | awk '{if ($2==0) print $1}' 

<强>解释

sed命令从输入文件中获取一个干净的电子邮件地址列表:

$ sed "s/.*User-Name=\(.[^,]*\),.*/\1/g" input.txt
joe7@it.test.com
bobe@jg.test.com
jerry777@it.test.com
frctom@pe.test.com
frc77@xed.test.com
petejg@it.test.com

grep命令在主文件中查找每个地址,并且(由于-c标志)返回0表示不匹配,1表示匹配:

$ for email in $(sed "s/.*User-Name=\(.[^,]*\),.*/\1/g" input.txt); do 
$ grep -oc $email master.txt 
$ done
0
1
0
0
1
0        

sort和uniq命令获得匹配和不匹配的频率:

$ |sort | uniq -c 
4 0
2 1

最后,awk命令打印出不匹配的数量(仅当第二列为0时才打印第一列):

$ awk '{if ($2==0) print $1}' 
4