我正在做一些工作来处理某个月内家庭审批的一些统计数据。我希望能够显示趋势 - 也就是说,自上个月以来,哪些区域的相对增加或减少很大。
我的第一个天真的方法是计算两个月之间的百分比变化,但是当数据非常低时会出现问题 - 任何变化都会被放大:
// diff = (new - old) / old
Area | June | July | Diff |
--------------|--------|--------|--------|
South Sydney | 427 | 530 | +24% |
North Sydney | 167 | 143 | -14% |
Dubbo | 1 | 3 | +200% |
我不想忽视任何区域或价值作为异常值,但我不希望Dubbo每月增加2个,超过南悉尼增加103个。有没有更好的方程式可以用来显示更有用的趋势信息?
此数据最终会在Google地图上绘制。在第一次尝试中,我只是将差异转换为“热图颜色”(蓝色 - 减少,绿色 - 没有变化,红色 - 增加)。也许使用一些其他指标来改变每个区域的视图可能是一个解决方案,例如,根据批准的总数或类似的东西更改alpha通道,在这种情况下,Dubbo将是鲜红色,但相当透明,而南悉尼将更接近黄色但非常不透明。
有关显示此数据的最佳方式的任何想法吗?
答案 0 :(得分:5)
查看统计重要性的度量。它可以像假设统计统计一样简单。
在一个非常简单的版本中,你绘制的东西是
(A_2 - A_1)/sqrt(A_2 + A_1)
即。在简单计数统计中改变超过1西格玛。
这使得上面的图表看起来像:
Area Reduced difference
--------------------------
S.S. +3.3
N.S. -1.3
D. +1.0
这被解释为意味着南悉尼经历了一个重要的(即重要的,可能与真正的潜在原因有关)增加,而北悉尼和达博感觉到相对较小的变化可能会或可能不会指向趋势。经验法则
费率很低的地区(如Dubbo)仍然会出现波动,但它们不会压倒显示屏。
答案 1 :(得分:3)
这确实是一个统计问题。我不是统计学家,但我怀疑答案是否符合,你没有数据 - 你期待什么?
也许您可以将Dubbo与附近地区合并?您已经将数据切得足够小,以至于信号已经低于噪音。
您也可以不显示Dubbo,或为没有足够的数据制作颜色。
答案 2 :(得分:1)
我有点像您的透明度 - 您自信的数据是不透明的,而您不自信的数据是透明的。用户很容易理解,但看起来很混乱。
我的拍摄:请勿使用热图。这是连续数据,而你是离散的。使用点。颜色表示周围区域的增加/减少,原始体积与点的大小成比例。
现在用户如何知道点所代表的区域? 南悉尼在哪里转换为北悉尼?最好的方法是在点之间添加voronoi-like引导线,但巧妙放置的矩形也会这样做。
答案 3 :(得分:1)
如果您恰好以平方公里为单位的每个区域的面积,您可以通过计算家庭批准/ km ^ 2来规范化您的数据,以获得家庭批准密度并在您的等式中使用它而不是计数家庭批准。如果Dubbo由于其大小而包含较少的家庭批准,那么这就解决了问题。如果有的话,您也可以按人口标准化,以获得每人的家庭批准数量。
答案 4 :(得分:1)
也许你可以使用总数。添加所有旧值和新值,得出old = 595,new = 676,diff = + 13.6%。然后计算基于旧总计的变化,这三个地方给你+ 17.3%/ -4.0%/ + 0.3%。
答案 5 :(得分:0)
使用热图,您通常会尝试显示易于吸收的信息。任何过于复杂的事情都可能适得其反。
就Dubbo而言,现实情况是你没有数据可以得出任何有关它的确切结论,所以我会把它涂成白色。您也可以用差值/当前值标记它。
我认为这可能会误导用户。
答案 6 :(得分:0)
我高度建议使用分层模型(即部分池)。使用回归和多级/层次模型的数据分析Gelman和Hill是该主题的优秀资源。
答案 7 :(得分:0)
您可以使用Fischer的精确测试http://en.wikipedia.org/wiki/Fisher%27s_exact_test之类的精确测试,或使用sudent的t测试http://en.wikipedia.org/wiki/Student%27s_t-test,这两种测试都是为低样本量而设计的。
作为一个注释,t检验几乎与z检验相同,但在t检验中你不必知道标准差,也不必像你做的那样近似它。 z测试。
由于中心极限定理http://en.wikipedia.org/wiki/Central_limit_theorem,您可以在99.99%的情况下无需任何理由地应用az或t检验(正式地,您只需要基础分布X具有有限方差。)您不需要证明理由对于费希尔测试,其确切且不做任何假设。