Bash脚本:计算文件中的唯一行

时间:2013-04-13 04:57:52

标签: bash

情况:

我有一个大文件(数百万行),包含几小时网络捕获的IP地址和端口,每行一个ip /端口。行具有以下格式:

ip.ad.dre.ss[:port]

期望的结果:

我在记录时收到的每个数据包都有一个条目,因此有很多重复的地址。我希望能够通过某种类型的shell脚本来运行它,这将能够将其缩小为格式行

ip.ad.dre.ss[:port] count

其中count是该特定地址(和端口)的出现次数。不需要做任何特殊工作,将不同的端口视为不同的地址。

到目前为止,我使用此命令从日志文件中删除所有IP地址:

grep -o -E [0-9]+\.[0-9]+\.[0-9]+\.[0-9]+(:[0-9]+)? ip_traffic-1.log > ips.txt

由此,我可以使用一个相当简单的正则表达式来清除我的地址发送的所有IP地址(我不在乎)

然后我可以使用以下内容来提取唯一条目:

sort -u ips.txt > intermediate.txt

我不知道如何以排序方式汇总行计数。

3 个答案:

答案 0 :(得分:260)

您可以使用uniq命令获取已排序重复行的计数:

sort ips.txt | uniq -c

要获得最频繁的结果(感谢Peter Jaric):

sort ips.txt | uniq -c | sort -bgr

答案 1 :(得分:3)

这是获取重复行数并以最不频繁到最频繁的方式很好地打印出来的最快方法:

awk '{!seen[$0]++}END{for (i in seen) print seen[i], i}' ips.txt | sort -n

如果您不关心性能,并且想要更容易记住,则只需运行:

sort ips.txt | uniq -c | sort -n

PS:

sort -n 将字段解析为数字,这是正确的,因为我们正在使用计数进行排序。

答案 2 :(得分:0)

计数唯一行的总数(即不考虑重复行),我们可以将uniq或Awk与wc一起使用:

sort ips.txt | uniq | wc -l
awk '!seen[$0]++' ips.txt | wc -l

Awk的数组是关联数组,因此它的运行可能比排序快一些。

生成文本文件:

$  for i in {1..100000}; do echo $RANDOM; done > random.txt
$ time sort random.txt | uniq | wc -l
31175

real    0m1.193s
user    0m0.701s
sys     0m0.388s

$ time awk '!seen[$0]++' random.txt | wc -l
31175

real    0m0.675s
user    0m0.108s
sys     0m0.171s