Question

我正在做一些工作来处理某个月内家庭审批的一些统计数据。我希望能够显示趋势 - 也就是说，自上个月以来，哪些区域的相对增加或减少很大。

我的第一个天真的方法是计算两个月之间的百分比变化，但是当数据非常低时会出现问题 - 任何变化都会被放大：

// diff = (new - old) / old
     Area      |  June  |  July  |  Diff  |
 --------------|--------|--------|--------|
 South Sydney  |   427  |   530  |  +24%  |
 North Sydney  |   167  |   143  |  -14%  |
 Dubbo         |     1  |     3  | +200%  |

我不想忽视任何区域或价值作为异常值，但我不希望Dubbo每月增加2个，超过南悉尼增加103个。有没有更好的方程式可以用来显示更有用的趋势信息？

此数据最终会在Google地图上绘制。在第一次尝试中，我只是将差异转换为“热图颜色”（蓝色 - 减少，绿色 - 没有变化，红色 - 增加）。也许使用一些其他指标来改变每个区域的视图可能是一个解决方案，例如，根据批准的总数或类似的东西更改alpha通道，在这种情况下，Dubbo将是鲜红色，但相当透明，而南悉尼将更接近黄色但非常不透明。

有关显示此数据的最佳方式的任何想法吗？

Answer 1

查看统计重要性的度量。它可以像假设统计统计一样简单。

在一个非常简单的版本中，你绘制的东西是

 (A_2 - A_1)/sqrt(A_2 + A_1)

即。在简单计数统计中改变超过1西格玛。

这使得上面的图表看起来像：

Area    Reduced difference
--------------------------
S.S.    +3.3  
N.S.    -1.3  
D.      +1.0

这被解释为意味着南悉尼经历了一个重要的（即重要的，可能与真正的潜在原因有关）增加，而北悉尼和达博感觉到相对较小的变化可能会或可能不会指向趋势。经验法则

1 sigma的变化只是噪音
3 sigma变化可能指向潜在原因（因此预期趋势）
5 sigma变化几乎肯定指向趋势

费率很低的地区（如Dubbo）仍然会出现波动，但它们不会压倒显示屏。

Answer 2

这确实是一个统计问题。我不是统计学家，但我怀疑答案是否符合，你没有数据 - 你期待什么？

也许您可以将Dubbo与附近地区合并？您已经将数据切得足够小，以至于信号已经低于噪音。

您也可以不显示Dubbo，或为没有足够的数据制作颜色。

Answer 3

我有点像您的透明度 - 您自信的数据是不透明的，而您不自信的数据是透明的。用户很容易理解，但看起来很混乱。

我的拍摄：请勿使用热图。这是连续数据，而你是离散的。使用点。颜色表示周围区域的增加/减少，原始体积与点的大小成比例。

现在用户如何知道点所代表的区域？ 南悉尼在哪里转换为北悉尼？最好的方法是在点之间添加voronoi-like引导线，但巧妙放置的矩形也会这样做。

Answer 4

如果您恰好以平方公里为单位的每个区域的面积，您可以通过计算家庭批准/ km ^ 2来规范化您的数据，以获得家庭批准密度并在您的等式中使用它而不是计数家庭批准。如果Dubbo由于其大小而包含较少的家庭批准，那么这就解决了问题。如果有的话，您也可以按人口标准化，以获得每人的家庭批准数量。

Answer 5

也许你可以使用总数。添加所有旧值和新值，得出old = 595，new = 676，diff = + 13.6％。然后计算基于旧总计的变化，这三个地方给你+ 17.3％/ -4.0％/ + 0.3％。

Answer 6

使用热图，您通常会尝试显示易于吸收的信息。任何过于复杂的事情都可能适得其反。

就Dubbo而言，现实情况是你没有数据可以得出任何有关它的确切结论，所以我会把它涂成白色。您也可以用差值/当前值标记它。

我认为这可能会误导用户。

Answer 7

我高度建议使用分层模型（即部分池）。使用回归和多级/层次模型的数据分析Gelman和Hill是该主题的优秀资源。

Answer 8

您可以使用Fischer的精确测试http://en.wikipedia.org/wiki/Fisher%27s_exact_test之类的精确测试，或使用sudent的t测试http://en.wikipedia.org/wiki/Student%27s_t-test，这两种测试都是为低样本量而设计的。

作为一个注释，t检验几乎与z检验相同，但在t检验中你不必知道标准差，也不必像你做的那样近似它。 z测试。

由于中心极限定理http://en.wikipedia.org/wiki/Central_limit_theorem，您可以在99.99％的情况下无需任何理由地应用az或t检验（正式地，您只需要基础分布X具有有限方差。）您不需要证明理由对于费希尔测试，其确切且不做任何假设。

在计算趋势时，您如何解释样本量较小？

8 个答案: