两个样本t检验和正态检查

时间:2017-12-03 21:41:29

标签: math statistics data-science

我正在进行t检验以确定两组A和B的平均值是否不同。

A组 - 样本量约为20K
B组 - 样本量约为670K
t test for A and B

由于P值小于α,我拒绝零假设并得出结论A组和B组的平均值不同。 然而,为了进行两个样本t检验,其中一个要求是样本(在我的情况下为A和B)必须是独立的并且来自正态分布。它们是独立的,因为我的样本量足够大,具有中心极限定理的能力,我认为假设它来自正态分布是好的。
但我决定做一个正常的测试,以确保这是真的 A和B来自X,因此对X做一个正常的测试表明:
A and B come from X, normal test on X
由于p值小于alpha,我们必须拒绝原假设(样本来自正态分布) 我在哪里错了? ttest甚至有效吗? A和B是否来自正态分布?

2 个答案:

答案 0 :(得分:0)

当测试统计遵循正态分布时,t检验有效。在这种情况下,使用的统计数据是两个种群的平均值。

使用中心极限定理,如果样本量足够大,您可以假设均值来自正态分布。但是,不能假设种群本身具有正态分布。

T检验并不要求假设样本来自正态分布。只需要检验统计量(在这种情况下,均值)来自正态分布。

由于样本量足够大,因此手段来自正态分布,因此可以对样本使用t检验。

答案 1 :(得分:0)

除了你可以取消t检验的答案之外,因为样本量非常大,这意味着样本均值的分布是正常的中心极限定理(你可以将你的检验统计量定义为两个样本意味着来自正态分布的群体),在给定效应大小和样本大小的情况下计算测试的功效也是有帮助的。

对于如此大的样本,测试可以足够敏感以检测微小的差异。你可能想问问自己,在你的问题的背景下,手段的0.001差异是否重要。因为如果不这样做,测试可能误导你认为一个样本的平均值在实际意义上显着小于或大于另一个样本,当测试检测到的效果可能有统计学意义时,可能实际上微不足道。