应用错误收集

在大文件中找到最受欢迎的网址

时间：2014-10-06 04:16:23

标签： algorithm sorting unix

我正在阅读this Yelp interview on Glassdoor

＆＃34;我们有一个相当大的日志文件，大约5GB。日志文件的每一行都包含用户在我们网站上访问过的URL。我们想弄清楚用户访问过的最受欢迎的100个网址是什么。＆＃34;

其中一个解决方案是

cat log |排序| uniq -c | sort -k2n | 100头

有人可以向我解释第二种排序的目的是什么（排序-k2n）？

谢谢！

1 个答案:

答案 0 :(得分：1)

看起来这些阶段是：

1）将日志文件放入过滤器

2）将相同的文件名放在一起

3）计算每个不同文件名的出现次数

4）按出现次数对对（文件名，出现次数）进行排序

5）打印出100个更常见的文件名