Internet上提供的平均JPEG文件大小

时间:2013-01-26 12:05:30

标签: jpeg distribution probability filesize

指向图表的任何链接,描述通过互联网提供的JPEG文件的“文件大小”属性的分布?

我很想知道是否有长尾和JPEG文件的“平均”尺寸。

1 个答案:

答案 0 :(得分:1)

我会推荐其他人查找此类数据的现有示例,但我可以分享如何计算此分布。

在不知道情况下,在互联网上分配图像大小的一种方法是从随机抽样值并分析结果。这通常在统计和机器学习中完成,一种方法是Markov Chain Monte Carlo。这在数学上与Google如何计算其pagerank算法有关。

根据您希望获得结果的准确程度,最佳方法是执行random walk on the Internet并收集有关您遇到的图像文件大小的统计信息。值得注意的是,您不必存储每个值 - 存在增量方式来存储此类统计信息,以便您可以在采样后获得远远超过内存的值的分布 - 例如the Commons Math implementation

但是,实施这种精确的随机游走可能很困难。也许对此进行近似的方法是转到Google Image Search,根据distribution over popular search terms输入随机搜索字词,并为每个结果中的前几百个图像设置图像尺寸。这很容易刮(因为你必须做很少的工作)和带宽效率(谷歌给你的图像大小,所以你不必下载图像并自己检查。)我认为这将是用于描述图像尺寸分布的相当准确。

最后,为了实现这一点,我建议使用像mechanize之类的东西来大大自动化这个过程。