问题陈述-统计证明5个组相同或不同
我正在研究一个数据集大小约为600,000的问题。
有5组,分别是[A,B,C,D,E]和相应的薪水,每组约有10万观察值。
df['Salary']
稍微偏斜。我尝试了ANOVA和Kruskal测试。
方差分析结果
如果我使用所有数据-p值表示各组在统计上是不同的(p
如果我在每组中使用10K随机样本,则p值会增加到〜0.002333
如果我在每个组中使用1000个随机样本,则p值超过0.05,约为〜0.5
我不确定如何评估这些结果?应该考虑的样本量是多少,我应该考虑采用什么其他方法
5组的均值和SD低于(当我考虑每组100,000个随机样本时:
第1组-(12.134831460674159,5.1823701530849995)
第2组-(11.64860907759883,5.092876703946831)
第3组-(11.660195118395315,4.952100116921575)
第4组-(12.052747507535358,5.091383288751849)
第5组-(11.468062169943916,4.996349965883181)
KRUSKAL结果
当样本量= 100时
KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)
当样本量为10,000时
KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)
答案 0 :(得分:0)
您的样本量很大,每组100k。有了这么多的数据点,您几乎可以保证找到统计学上显着的差异/结果。这些统计检验并非真正针对如此大的样本量而设计。
您应该使用所有数据来获得最佳估计,但是,您将不得不使用领域知识来确定差异是否具有实际意义。另外,您应该查看置信区间以确定效果。
此外,方差分析假设残差的正态分布,而不是数据。