在计算趋势时,您如何解释样本量较小?

时间:2009-09-24 06:37:21

标签: algorithm google-maps language-agnostic statistics

我正在做一些工作来处理某个月内家庭审批的一些统计数据。我希望能够显示趋势 - 也就是说,自上个月以来,哪些区域的相对增加或减少很大。

我的第一个天真的方法是计算两个月之间的百分比变化,但是当数据非常低时会出现问题 - 任何变化都会被放大:

// diff = (new - old) / old
     Area      |  June  |  July  |  Diff  |
 --------------|--------|--------|--------|
 South Sydney  |   427  |   530  |  +24%  |
 North Sydney  |   167  |   143  |  -14%  |
 Dubbo         |     1  |     3  | +200%  |

我不想忽视任何区域或价值作为异常值,但我不希望Dubbo每月增加2个,超过南悉尼增加103个。有没有更好的方程式可以用来显示更有用的趋势信息?

此数据最终会在Google地图上绘制。在第一次尝试中,我只是将差异转换为“热图颜色”(蓝色 - 减少,绿色 - 没有变化,红色 - 增加)。也许使用一些其他指标来改变每个区域的视图可能是一个解决方案,例如,根据批准的总数或类似的东西更改alpha通道,在这种情况下,Dubbo将是鲜红色,但相当透明,而南悉尼将更接近黄色但非常不透明。

有关显示此数据的最佳方式的任何想法吗?

8 个答案:

答案 0 :(得分:5)

查看统计重要性的度量。它可以像假设统计统计一样简单。

在一个非常简单的版本中,你绘制的东西是

 (A_2 - A_1)/sqrt(A_2 + A_1)

即。在简单计数统计中改变超过1西格玛。

这使得上面的图表看起来像:

Area    Reduced difference
--------------------------
S.S.    +3.3  
N.S.    -1.3  
D.      +1.0

这被解释为意味着南悉尼经历了一个重要的(即重要的,可能与真正的潜在原因有关)增加,而北悉尼和达博感觉到相对较小的变化可能会或可能不会指向趋势。经验法则

  • 1 sigma的变化只是噪音
  • 3 sigma变化可能指向潜在原因(因此预期趋势)
  • 5 sigma变化几乎肯定指向趋势

费率很低的地区(如Dubbo)仍然会出现波动,但它们不会压倒显示屏。

答案 1 :(得分:3)

这确实是一个统计问题。我不是统计学家,但我怀疑答案是否符合,你没有数据 - 你期待什么?

也许您可以将Dubbo与附近地区合并?您已经将数据切得足够小,以至于信号已经低于噪音。

您也可以不显示Dubbo,或为没有足够的数据制作颜色。

答案 2 :(得分:1)

我有点像您的透明度 - 您自信的数据是不透明的,而您不自信的数据是透明的。用户很容易理解,但看起来很混乱

我的拍摄请勿使用热图。这是连续数据,而你是离散的。使用点。颜色表示周围区域的增加/减少,原始体积与点的大小成比例。

现在用户如何知道点所代表的区域? 南悉尼在哪里转换为北悉尼?最好的方法是在点之间添加voronoi-like引导线,但巧妙放置的矩形也会这样做。

答案 3 :(得分:1)

如果您恰好以平方公里为单位的每个区域的面积,您可以通过计算家庭批准/ km ^ 2来规范化您的数据,以获得家庭批准密度并在您的等式中使用它而不是计数家庭批准。如果Dubbo由于其大小而包含较少的家庭批准,那么这就解决了问题。如果有的话,您也可以按人口标准化,以获得每人的家庭批准数量。

答案 4 :(得分:1)

也许你可以使用总数。添加所有旧值和新值,得出old = 595,new = 676,diff = + 13.6%。然后计算基于旧总计的变化,这三个地方给你+ 17.3%/ -4.0%/ + 0.3%。

答案 5 :(得分:0)

使用热图,您通常会尝试显示易于吸收的信息。任何过于复杂的事情都可能适得其反。

就Dubbo而言,现实情况是你没有数据可以得出任何有关它的确切结论,所以我会把它涂成白色。您也可以用差值/当前值标记它。

我认为这可能会误导用户。

答案 6 :(得分:0)

高度建议使用分层模型(即部分池)。使用回归和多级/层次模型的数据分析Gelman和Hill是该主题的优秀资源。

答案 7 :(得分:0)

您可以使用Fischer的精确测试http://en.wikipedia.org/wiki/Fisher%27s_exact_test之类的精确测试,或使用sudent的t测试http://en.wikipedia.org/wiki/Student%27s_t-test,这两种测试都是为低样本量而设计的。

作为一个注释,t检验几乎与z检验相同,但在t检验中你不必知道标准差,也不必像你做的那样近似它。 z测试。

由于中心极限定理http://en.wikipedia.org/wiki/Central_limit_theorem,您可以在99.99%的情况下无需任何理由地应用az或t检验(正式​​地,您只需要基础分布X具有有限方差。)您不需要证明理由对于费希尔测试,其确切且不做任何假设。