在高流量网站上记录请求

时间:2009-01-26 22:02:07

标签: iis scalability

我想知道高流量网站如何处理流量日志记录,例如像myspace.com这样的网站收到大量点击,我可以想象它会占用大量空间来记录所有这些请求,所以,他们是否记录每一个请求请求或他们如何处理这个?

7 个答案:

答案 0 :(得分:3)

如果您在MySpace页面上查看源代码,您将得到答案:

<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-6293770-1");
pageTracker._setDomainName(".myspace.com");
pageTracker._setSampleRate("1"); //sets sampling rate to 1 percent
pageTracker._trackPageview(); 
</script>

该脚本意味着他们正在使用Google Analytics。

他们不仅可以使用IIS日志来衡量流量,因为他们可能会向第三方出售广告,第三方也不会接受您获得的流量。他们需要来自单独公司的独立号码,这就是Google Analytics的用武之地。

仅供将来参考 - 只要您对网站的运作方式有疑问,请尝试查看来源。你会惊讶于你能在平面视图中找到的东西。

答案 1 :(得分:3)

我们在Intranet上遇到了类似的问题,数百人使用了它。磁盘活动非常庞大,性能受到了损害。

简短的回答是异步非阻塞日志记录。

答案 2 :(得分:1)

可能就像谷歌分析。

使用Javascript在差异服务器上加载页面等。

答案 3 :(得分:0)

不要他们如何跟踪它,因为我不在那里工作。我很确定他们有足够的存储空间来记录他们想要的用户的每一件小事。

如果我是他们,我会使用AwStats,如果我只是想了解我的用户的基本内容。 他们更有可能开发了自己的脚本来跟踪用户。他们会记录的东西 -ip_address
-referrer
- 时间
-browser
-OS

等等。然后是一个脚本,用于查看有关用户的不同数据,按日,周或月变化。正如brulak所说,这是Analytics的一部分,但由于他们可以访问实际的数据库,因此他们可以更多地了解他们的用户。

答案 4 :(得分:0)

ZXTM流量整形和日志记录,请点击此处的经验

答案 5 :(得分:0)

如果他们没有记录每一个请求,我会非常惊讶,是的,具有特别高流量的操作通常会以某种形式或其他形式针对原始服务器日志推送自己的日志管理解决方案 - 有时作为简单的批处理类型的进程,有时作为完整的子系统。

我在网络全盛时期工作过的一家公司每天获得超过两千万的综合浏览量;对于那个站点(实际上是一组,总共运行了几十台机器,我记得),我们的运营团队在C中编写了一个非常复杂的集群解决方案,解析,翻译(转换为关系存储),压缩和分发每天记录。日志文件,特别是冗长的日志文件,很快就会堆积起来,当时可用的商业解决方案无法削减它。

答案 6 :(得分:0)

如果通过记录您的意思是收集服务器相关信息(请求和响应时间,每个请求的数据库和CPU使用情况等),我认为他们只采样10%或1%的流量。这样可以获得相同的结果(为开发人员提供审计信息),而无需填写磁盘或减慢网站速度。