服务器日志/ Webalizer,206音频和视频文件的部分内容 - 如何计算下载次数?

时间:2011-10-25 14:36:12

标签: audio video mp3 logging partial

我需要计算从媒体服务器下载的视频和音频文件的数量。我们的媒体服务器只承载音频/视频文件(mp3和mp4),我们每月使用Stone Steps Webalizer解析我们的IIS日志文件。

当我查看Webalizer统计数据时,大多数“命中”是“代码206部分内容”,其余大多数是“代码200正常”。例如,我们最近的每月Webalizer统计数据看起来像这样 -

总点击次数:1,600,000 代码200 - 确定:300,000 代码206 - 部分内容:1,300,000

总点击数字远远大于我预期的服务数据量(总Kbytes)。

当我分析日志文件时,它看起来好像媒体播放器(iTunes,Quicktime等)为单个下载/播放创建多个206,我怀疑Webalizer不会从同一IP /访问中对这些多个206进行分组而是记录每个206都是“命中” - 正因为如此,总命中率数字大幅膨胀。维基页面上有一个对Weblizer的批评似乎证实了这一点 - http://en.wikipedia.org/wiki/Webalizer

我是否正确206和Webalizer,如果我是正确的,我将如何计算下载次数?是否有行业标准方法和/或是否有更适合该任务的替代网络分析应用程序?

非常感谢任何帮助或建议。

3 个答案:

答案 0 :(得分:3)

没有收到我的问题的任何回复,但我想我会提供更新。

我们已经分析了一小时的日志文件样本,我们已经在mp3和mp4文件上对不同的浏览器/媒体播放器进行了一些测试。

以下是我们的调查结果 -

  • 一些媒体播放器,特别是iTunes / Quicktime,制作了一系列 206个请求但不产生200个请求。

  • 大多数但并非所有网络浏览器(Chrome都是例外),产生一个 下载媒体文件时的请求200和206请求,即 下载到桌面而不是在桌面媒体播放器中播放
    或媒体播放器插件

  • 如果文件被浏览器/媒体播放器缓存,则可能产生304 请求,没有200和206请求。

鉴于上述情况,我们认为除非软件具有专门为此目的设计的智能算法,否则无法计算来自日志文件分析的媒体文件的'下载'。例如,它需要在设定的时间段(例如30分钟)内对来自同一IP的特定媒体文件的所有请求进行分组,并将其计为一次下载。据我所知,市场上没有任何可以提供该功能的日志文件分析软件。

我做了一个快速的谷歌搜索,以了解有关播客/视频指标/日志文件分析的更多信息,它似乎是一个非常真实的,虽然利基问题。 Google Analytics和其他使用网络信标的网络指标工具,例如SiteStat不是一个选项,除非您的媒体文件只能从您的网站下载,即没有RSS或iTunes联合等。即便如此,我不确定他们是否可以完成这项工作。

我认为这就是为什么像podtrac和blubrry这样的公司使用重定向提供专门的播客/视频测量工具而不是日志文件分析。

Podtrac http://podtrac.com/publisher/measurement

Blubrry http://www.blubrry.com/podcast_statistics/

如果有任何人有这方面的经验或专业知识,请随时提出建议或纠正我,如果我错了。

答案 1 :(得分:1)

这可能太晚了,无法专门帮助您,但如果您已经解析了服务器日志并将其存储在像DBMS这样合理的地方,那么快速的SQL将为您提供您之后的综合结果。给出一个非常简单的日志表,其中每个206都记录了一个“击中时间”。获取的项目的IP地址和获取的项目的id /外键可以运行此查询:

select min(hit_time) as hit_time, ip_address, episode_id
from podcast_hit
group by DATE(hit_time), ip_address, episode_id

这将对所有206条记录进行分组,并使它们在白天变得独一无二,用户可以为您提供更准确的统计数据。希望这有助于某人!

答案 2 :(得分:0)

试试我的软件。我遇到了同样的问题,因为mp3被分成多个IPods和Iphone流。这很容易实现并且可以实现一种享受。

Github