我正在阅读this Yelp interview on Glassdoor
"我们有一个相当大的日志文件,大约5GB。日志文件的每一行都包含用户在我们网站上访问过的URL。我们想弄清楚用户访问过的最受欢迎的100个网址是什么。 "
其中一个解决方案是
cat log |排序| uniq -c | sort -k2n | 100头
有人可以向我解释第二种排序的目的是什么(排序-k2n)?
谢谢!
答案 0 :(得分:1)
看起来这些阶段是:
1)将日志文件放入过滤器
2)将相同的文件名放在一起
3)计算每个不同文件名的出现次数
4)按出现次数对对(文件名,出现次数)进行排序
5)打印出100个更常见的文件名