Question

我正在制作一个模型来预测大学棒球运动员进入大联盟的可能性。我的数据集有633个观测值和13个具有二元响应的预测变量。下面的代码生成了较小的可重现的训练和测试数据集示例：

set.seed(1)
OBP <- rnorm(50, mean=1, sd=.2)
HR.PCT <- rnorm(50, mean=1, sd=.2)
AGE <- rnorm(50, mean=21, sd=1)
CONF <- sample(c("A","B","C","D","E"), size=50, replace=TRUE)
CONF <- factor(CONF, levels=c("A","B","C","D","E"))
df.train <- data.frame(OBP, HR.PCT, AGE, CONF)
df.train <- df.train[order(-OBP),]
df.train$MADE.MAJORS <- 0
df.train$MADE.MAJORS[1:10] <- 1

OBP <- rnorm(10, mean=1, sd=.2)
HR.PCT <- rnorm(10, mean=1, sd=.2)
AGE <- rnorm(10, mean=21, sd=1)
CONF <- sample(c("A","B","C","D","E"), size=10, replace=TRUE)
CONF <- factor(CONF, levels=c("A","B","C","D","E"))
MADE.MAJORS <- sample(0:1, size=10, replace=TRUE, prob=c(0.8,0.2))
df.test <- data.frame(OBP, HR.PCT, AGE, CONF, MADE.MAJORS)

然后我使用glmnet来执行带有逻辑回归的套索并生成预测。我希望预测以概率的形式出现（即介于0和1之间）。

library(glmnet)
train.mtx <- with(df.train, model.matrix(MADE.MAJORS ~ OBP + HR.PCT + AGE + CONF)[,-1])
glmmod <- glmnet(x=train.mtx, y=as.factor(df.train$MADE.MAJORS), alpha=1, family="binomial")
cv.glmmod <- cv.glmnet(x=train.mtx, y=df.train$MADE.MAJORS, alpha=1)

test.mtx <- with(df.test, model.matrix(MADE.MAJORS ~ OBP + HR.PCT + AGE + CONF)[,-1])
preds <- predict.glmnet(object=glmmod, newx=test.mtx, s=cv.glmmod$lambda.min, type="response")
cv.preds <- predict.cv.glmnet(object=cv.glmmod, newx=test.mtx, s="lambda.min")

以下是预测：

> preds
            1
1  -3.2589440
2  -0.4435265
3   3.9646670
4   0.3772816
5   0.9952887
6  -7.3555661
7   0.2283675
8  -2.3871317
9  -8.1632749
10 -1.3563051

> cv.preds
            1
1   0.1568839
2   0.3630938
3   0.7435941
4   0.4808428
5   0.5261076
6  -0.1431655
7   0.4123054
8   0.2207381
9  -0.1446941
10  0.2962391

我对这些结果有几个问题。随意回答任何或所有（或没有）。我对第一个问题的答案最感兴趣。

为什么来自predict.glmnet（preds向量）的预测不是以概率的形式出现的？我将preds值放在逆logit函数中并得到合理的概率。那是对的吗？
来自predict.cv.glmnet（cv.preds向量）的预测大多看起来像概率，但其中一些是负面的。这是为什么？
当我使用glmnet函数创建glmmod对象时，我包含family="binomial"参数以指示我正在使用逻辑回归。但是，当我使用cv.glmnet函数找到lambda的最佳值时，我无法指定逻辑回归。如果交叉验证不使用逻辑回归，我真的能获得lambda的最佳价值吗？
同样，当我使用predict.cv.glmnet函数时，我无法指定逻辑回归。这个函数是否产生了我想要的预测？

Answer 1

我对以下内容并不是100％肯定，因为正如您所注意到的那样，软件包似乎与其文档背道而驰，但它可能会产生一些迹象表明您的思路是否正确。

问题1

是的，你是对的。请注意，

> predict.glmnet(object=glmmod, newx=test.mtx, s=cv.glmmod$lambda.min, type="link")
            1
1  -3.2589440
2  -0.4435265
3   3.9646670
4   0.3772816
5   0.9952887
6  -7.3555661
7   0.2283675
8  -2.3871317
9  -8.1632749
10 -1.3563051

与type="response"的输出相同。因此，通过逆logit函数将是获得概率的正确方法。至于为什么会发生这种情况，我不知道 - 也许是一个错误。

问题2 ... 4

对于cv.preds，您可以获得符合概率的内容，因为您正在拟合高斯链接。为了适应logit链接，您应该指定family参数。即：

cv.glmmod <- cv.glmnet(x=train.mtx, y=df.train$MADE.MAJORS, alpha=1, family="binomial")

> cv.preds
            1
1  -10.873290
2    1.299113
3   15.812671
4    3.622259
5    5.621857
6  -24.826551
7    1.734000
8   -5.420878
9  -26.160403
10  -4.496020

在这种情况下，cv.preds将沿实线输出，您可以通过逆logit将这些值放入以获取概率。

为什么predict.glmnet不能预测概率？

1 个答案:

问题1

问题2 ... 4