awk +过滤日志文件

时间:2014-06-02 17:52:35

标签: linux perl bash awk sed

我使用以下漂亮的awk命令来过滤重复的行

示例:

cat LogFile | awk '!seen[$0]++'

问题是在某些情况下我们需要过滤重复的行,尽管有些字段不同而且它们不那么重要

例如

日志文件:

 [INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08
 [INFO],[02/Jun/2014-19:31:25],EXE,ds1a,INHT VERION , 1.4.4.3-08
 [INFO],[02/Jun/2014-19:32:40],EXE,ds1a,INHT VERION , 1.4.4.3-08

请查看此文件 - LogFile

我需要从第三个分隔符“”中删除重复的行,直到该行的结尾,

并且无论在第三个分隔符之前是什么

所以最后我应该得到这个过滤的文件:(应该总是得到列表中的第一个)

    [INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08

所以请帮我完成我的任务

如何从第三个分隔符“”过滤LofFile,并忽略这些字段: [INFO],[...........],EXE ,

备注 - 植入也可以使用perl one liner line

4 个答案:

答案 0 :(得分:4)

使用GNU awk for gensub():

$ awk '!seen[gensub(/([^,]*,){3}/,"","")]++' file
[INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08

任何支持RE间隔的awk(大多数现代awks):

$ awk '{key=$0; sub(/([^,]*,){3}/,"",key)} !seen[key]++' file
[INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08

答案 1 :(得分:2)

使用perl one-liner:

perl -lne '$k = s/(.*?,){3}//r; print if !$seen{$k}++' file.log

输出:

[INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08

说明:

切换

  • -l:启用行结束处理。 (仅当最后一行日志文件缺少新行时才需要
  • -n:为输入文件中的每一行创建一个while(<>){..}循环。
  • -e:告诉perl在命令行上执行代码。

<强>代码

  • $k = s/(.*?,){3}//r:保存变量$k
  • 中第三个逗号后的所有内容
  • print if !$seen{$k}++:如果之前未看到该密钥,请打印该行。

答案 2 :(得分:1)

使用autosplit的方式略有不同:

perl -aF, -ne'print unless $seen{"@F[3..$#F]"}++' logfile.txt

答案 3 :(得分:0)

你可以:

awk 'BEGIN{FS=OFS=","}{o=$0;$1=$2=$3=""}!seen[$0]++{print o;}' ...