按列消除部分重复的行并保留最后一行

时间:2011-03-25 07:52:38

标签: bash awk sed text-processing

我有一个看起来像这样的文件:

2011-03-21 name001 line1
2011-03-21 name002 line2
2011-03-21 name003 line3
2011-03-22 name002 line4
2011-03-22 name001 line5

对于每个名字,我只想要它的最后一次出现。所以,我希望结果是:

2011-03-21 name003 line3
2011-03-22 name002 line4
2011-03-22 name001 line5

有人可以用bash / awk / sed给我一个解决方案吗?

4 个答案:

答案 0 :(得分:38)

此代码通过第二个字段获取唯一行,但是从文件或文本末尾(如结果示例中)

tac temp.txt | sort -k2,2 -r -u

答案 1 :(得分:11)

awk '{a[$2]=$0} END {for (i in a) print a[i]}' file

如果出场顺序很重要:

  • 基于第一次出现:

    awk '!a[$2] {b[++i]=$2} {a[$2]=$0} END {for (i in b) print a[b[i]]}' file
    
  • 基于上次出场:

    tac file | awk '!a[$2] {b[++i]=$2} {a[$2]=$0} END {for (i in b) print a[b[i]]}'
    

答案 2 :(得分:6)

sort < bar > foo
uniq  < foo > bar

bar现在没有重复的行

答案 3 :(得分:4)

编辑:这是一个实际回答问题的版本。

sort -k 2 filename | while read f1 f2 f3; do if [ ! "$f2" = "$lf2" ]; then echo "$f1 $f2 $f3"; lf2="$f2"; fi; done