典型的t检验检查两个样本均值是否显着不同。让我们假设以下两个样本集:
x1 = [12.9, 10.2, 7.4, 7.0, 10.5, 11.9, 7.1, 9.9, 14.4, 11.3]
x2 = [10.2, 6.9, 10.9, 11.0, 10.1, 5.3, 7.5, 10.3, 9.2, 8.8]
问题:x1
的均值与x2
的均值是否显着不同? (mu1
!= mu2
)
我可以构造其均值的95%置信区间:
stats.t.interval(1 - 0.05, len(x1) - 1, loc=np.mean(x1), scale=stats.sem(x1))
>>> (8.461873578892417, 12.058126421107586)
stats.t.interval(1 - 0.05, len(x2) - 1, loc=np.mean(x2), scale=stats.sem(x2))
>>> (7.663208497074507, 10.376791502925492)
两个置信区间之间存在重叠,因此样本均值没有显着差异。我们还可以使用t检验(假设方差相等)来对此进行正式测试:
stats.ttest_ind(x1, x2, equal_var=False)
>>> Ttest_indResult(statistic=1.245268949149111, pvalue=0.23018336828903668)
由于p值不小于0.05
,所以我们不能拒绝原假设,并得出样本均值没有显着差异的结论。
但是,如果我想知道一个小组的平均收入是否比另一个小组高?
问题:x1
的平均值是否明显大于x2
的平均值? (mu1
> mu2
)
我听说两尾测试和单尾测试之间存在差异,我想我的问题与此有关。我该如何判断某个事物比另一个事物大得多或少得多?不仅彼此之间存在明显的区别吗?我如何量化这种差异?如何在Python中做到这一点?