Logistic回归检测概率

时间:2019-03-09 08:23:26

标签: r logistic-regression glm

我正在尝试访问检测概率中的关键协变量。

我当前正在使用此代码

    model1 <- glm(P ~ Width +
                MBL +
                DFT +
                SGP +
                SGC +
                Depth,
              family = binomial("logit"), 
              data = dframe2, na.action = na.exclude)
summary.lm(model1)

我的数据的结构如下-

Site Transect Q  ID   P  Width DFT  Depth    Substrate SGP SGC  MBL
1      Vr1    Q1  1   0    NA  NA   0.5         Sand   0   0    0.00000
2      Vr1    Q2  2   0    NA  NA   1.4 Sand&Searass   1   30   19.14286
3      Vr1    Q3  3   0    NA  NA   1.7 Sand&Searass   1   15   16.00000
4      Vr1    Q4  4   1    17   0   2.0 Sand&Searass   1   95   35.00000
5      Vr1    Q5  5   0    NA  NA   2.4         Sand   0   0    0.00000
6      Vr1    Q6  6   0    NA  NA   2.9 Sand&Searass   1   50   24.85714

我的样本量非常小(n = 12),并且我只有约70行数据。

当我运行代码时,它会返回

                      Estimate   Std. Error  t value Pr(>|t|)   
(Intercept)            2.457e+01  4.519e+00   5.437  0.00555 **
Width                  1.810e-08  1.641e-01   0.000  1.00000   
MBL                   -2.827e-08  9.906e-02   0.000  1.00000   
DFT                    2.905e-07  1.268e+00   0.000  1.00000   
SGP                    1.064e-06  2.691e+00   0.000  1.00000   
SGC                   -2.703e-09  3.289e-02   0.000  1.00000   
Depth                  1.480e-07  9.619e-01   0.000  1.00000   
SubstrateSand&Searass -8.516e-08  1.626e+00   0.000  1.00000 

这是否意味着我的数据集很小,无法评估检测概率,还是我做错了什么?

1 个答案:

答案 0 :(得分:0)

根据Hair(《多变量数据分析》一书的作者)所述,数据的每个功能(列)至少需要15个示例。如果您有12个,则只能选择一项功能。

因此,对两个类别中的每个类别相关的特征(目标和因变量分别为0和1)进行t检验比较,然后选择类别之间的平均差异最大的特征(独立变量)。这意味着变量可以正确地创建边界以拆分这两个类。