5个不同组的参数或非参数组测试

时间:2019-02-12 02:06:50

标签: statistics anova t-test

问题陈述-统计证明5个组相同或不同

  • 我正在研究一个数据集大小约为600,000的问题。

  • 有5组,分别是[A,B,C,D,E]和相应的薪水,每组约有10万观察值。

df['Salary']稍微偏斜。我尝试了ANOVA和Kruskal测试。

方差分析结果

如果我使用所有数据-p值表示各组在统计上是不同的(p

如果我在每组中使用10K随机样本,则p值会增加到〜0.002333

如果我在每个组中使用1000个随机样本,则p值超过0.05,约为〜0.5

我不确定如何评估这些结果?应该考虑的样本量是多少,我应该考虑采用什么其他方法

5组的均值和SD低于(当我考虑每组100,000个随机样本时:

第1组-(12.134831460674159,5.1823701530849995)

第2组-(11.64860907759883,5.092876703946831)

第3组-(11.660195118395315,4.952100116921575)

第4组-(12.052747507535358,5.091383288751849)

第5组-(11.468062169943916,4.996349965883181)

KRUSKAL结果

当样本量= 100时

KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)

当样本量为10,000时

KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)

Distribution of Avg salary - Total population of ~600k

1 个答案:

答案 0 :(得分:0)

您的样本量很大,每组100k。有了这么多的数据点,您几乎可以保证找到统计学上显着的差异/结果。这些统计检验并非真正针对如此大的样本量而设计。

您应该使用所有数据来获得最佳估计,但是,您将不得不使用领域知识来确定差异是否具有实际意义。另外,您应该查看置信区间以确定效果。

此外,方差分析假设残差的正态分布,而不是数据。