Question

我想测试两种均值之间的差异，但是我不确定这样做是否在统计上有效。

我要比较的两组均具有90个AUC得分，分别来自3个不同的实验（每个实验30个）。在这些实验中，我运行了3个分类器（GBM，RF和DL）。因此，对于每个分类器，我在一个实验中有10个AUC分数。

进行的每个实验都有不同的样本量，例如：4000、5000和8000。我要比较的2组基于：第1组：具有所有可用功能的模型第2组：具有除1以外的所有可用功能的模型

什么是测试显着差异的合适测试？

我已经使用这些值对R进行了t检验，但我只是不知道比较这些组是否在统计上有效。

t.test(c(as.numeric(exp1.fullmodel.GBM_AUCs[1,]), as.numeric(exp2.fullmodel.GBM_AUCs[1,]), as.numeric(exp3.fullmodel.GBM_AUCs[1,]),
         as.numeric(exp1.fullmodel.RF_AUCs[1,]), as.numeric(exp2.fullmodel.RF_AUCs[1,]), as.numeric(exp3.fullmodel.RF_AUCs[1,]),
         as.numeric(exp1.fullmodel.DL_AUCs[1,]), as.numeric(exp2.fullmodel.DL_AUCs[1,]), as.numeric(exp3.fullmodel.DL_AUCs[1,])), 
       c(as.numeric(exp1.hyp1.GBM_AUCs[1,]), as.numeric(exp2.hyp1.GBM_AUCs[1,]), as.numeric(exp3.hyp1.GBM_AUCs[1,]),
         as.numeric(exp1.hyp1.RF_AUCs[1,]), as.numeric(exp2.hyp1.RF_AUCs[1,]), as.numeric(exp3.hyp1.RF_AUCs[1,]),
         as.numeric(exp1.hyp1.DL_AUCs[1,]), as.numeric(exp2.hyp1.DL_AUCs[1,]), as.numeric(exp3.hyp1.DL_AUCs[1,])),
       alternative = "two.sided", paired = TRUE)

(exp1.fullmodel.GBM_AUCs[1,]) = 
    cv_1_valid cv_2_valid cv_3_valid cv_4_valid cv_5_valid cv_6_valid cv_7_valid cv_8_valid cv_9_valid cv_10_valid
auc  0.7103074  0.6666348 0.69151336  0.7666884  0.7400907  0.6940528  0.7088715  0.7011338  0.7298108   0.7589226

2组不同组内的均值比较

0 个答案: