在大文件中找到最受欢迎的网址

时间:2014-10-06 04:16:23

标签: algorithm sorting unix

我正在阅读this Yelp interview on Glassdoor

"我们有一个相当大的日志文件,大约5GB。日志文件的每一行都包含用户在我们网站上访问过的URL。我们想弄清楚用户访问过的最受欢迎的100个网址是什么。 "

其中一个解决方案是

cat log |排序| uniq -c | sort -k2n | 100头

有人可以向我解释第二种排序的目的是什么(排序-k2n)?

谢谢!

1 个答案:

答案 0 :(得分:1)

看起来这些阶段是:

1)将日志文件放入过滤器

2)将相同的文件名放在一起

3)计算每个不同文件名的出现次数

4)按出现次数对对(文件名,出现次数)进行排序

5)打印出100个更常见的文件名