我正在尝试访问检测概率中的关键协变量。
我当前正在使用此代码
model1 <- glm(P ~ Width +
MBL +
DFT +
SGP +
SGC +
Depth,
family = binomial("logit"),
data = dframe2, na.action = na.exclude)
summary.lm(model1)
我的数据的结构如下-
Site Transect Q ID P Width DFT Depth Substrate SGP SGC MBL
1 Vr1 Q1 1 0 NA NA 0.5 Sand 0 0 0.00000
2 Vr1 Q2 2 0 NA NA 1.4 Sand&Searass 1 30 19.14286
3 Vr1 Q3 3 0 NA NA 1.7 Sand&Searass 1 15 16.00000
4 Vr1 Q4 4 1 17 0 2.0 Sand&Searass 1 95 35.00000
5 Vr1 Q5 5 0 NA NA 2.4 Sand 0 0 0.00000
6 Vr1 Q6 6 0 NA NA 2.9 Sand&Searass 1 50 24.85714
我的样本量非常小(n = 12),并且我只有约70行数据。
当我运行代码时,它会返回
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.457e+01 4.519e+00 5.437 0.00555 **
Width 1.810e-08 1.641e-01 0.000 1.00000
MBL -2.827e-08 9.906e-02 0.000 1.00000
DFT 2.905e-07 1.268e+00 0.000 1.00000
SGP 1.064e-06 2.691e+00 0.000 1.00000
SGC -2.703e-09 3.289e-02 0.000 1.00000
Depth 1.480e-07 9.619e-01 0.000 1.00000
SubstrateSand&Searass -8.516e-08 1.626e+00 0.000 1.00000
这是否意味着我的数据集很小,无法评估检测概率,还是我做错了什么?
答案 0 :(得分:0)
根据Hair(《多变量数据分析》一书的作者)所述,数据的每个功能(列)至少需要15个示例。如果您有12个,则只能选择一项功能。
因此,对两个类别中的每个类别相关的特征(目标和因变量分别为0和1)进行t检验比较,然后选择类别之间的平均差异最大的特征(独立变量)。这意味着变量可以正确地创建边界以拆分这两个类。