我正在制作一个模型来预测大学棒球运动员进入大联盟的可能性。我的数据集有633个观测值和13个具有二元响应的预测变量。下面的代码生成了较小的可重现的训练和测试数据集示例:
set.seed(1)
OBP <- rnorm(50, mean=1, sd=.2)
HR.PCT <- rnorm(50, mean=1, sd=.2)
AGE <- rnorm(50, mean=21, sd=1)
CONF <- sample(c("A","B","C","D","E"), size=50, replace=TRUE)
CONF <- factor(CONF, levels=c("A","B","C","D","E"))
df.train <- data.frame(OBP, HR.PCT, AGE, CONF)
df.train <- df.train[order(-OBP),]
df.train$MADE.MAJORS <- 0
df.train$MADE.MAJORS[1:10] <- 1
OBP <- rnorm(10, mean=1, sd=.2)
HR.PCT <- rnorm(10, mean=1, sd=.2)
AGE <- rnorm(10, mean=21, sd=1)
CONF <- sample(c("A","B","C","D","E"), size=10, replace=TRUE)
CONF <- factor(CONF, levels=c("A","B","C","D","E"))
MADE.MAJORS <- sample(0:1, size=10, replace=TRUE, prob=c(0.8,0.2))
df.test <- data.frame(OBP, HR.PCT, AGE, CONF, MADE.MAJORS)
然后我使用glmnet
来执行带有逻辑回归的套索并生成预测。我希望预测以概率的形式出现(即介于0和1之间)。
library(glmnet)
train.mtx <- with(df.train, model.matrix(MADE.MAJORS ~ OBP + HR.PCT + AGE + CONF)[,-1])
glmmod <- glmnet(x=train.mtx, y=as.factor(df.train$MADE.MAJORS), alpha=1, family="binomial")
cv.glmmod <- cv.glmnet(x=train.mtx, y=df.train$MADE.MAJORS, alpha=1)
test.mtx <- with(df.test, model.matrix(MADE.MAJORS ~ OBP + HR.PCT + AGE + CONF)[,-1])
preds <- predict.glmnet(object=glmmod, newx=test.mtx, s=cv.glmmod$lambda.min, type="response")
cv.preds <- predict.cv.glmnet(object=cv.glmmod, newx=test.mtx, s="lambda.min")
以下是预测:
> preds
1
1 -3.2589440
2 -0.4435265
3 3.9646670
4 0.3772816
5 0.9952887
6 -7.3555661
7 0.2283675
8 -2.3871317
9 -8.1632749
10 -1.3563051
> cv.preds
1
1 0.1568839
2 0.3630938
3 0.7435941
4 0.4808428
5 0.5261076
6 -0.1431655
7 0.4123054
8 0.2207381
9 -0.1446941
10 0.2962391
我对这些结果有几个问题。随意回答任何或所有(或没有)。我对第一个问题的答案最感兴趣。
为什么来自predict.glmnet
(preds
向量)的预测不是以概率的形式出现的?我将preds
值放在逆logit函数中并得到合理的概率。那是对的吗?
来自predict.cv.glmnet
(cv.preds
向量)的预测大多看起来像概率,但其中一些是负面的。这是为什么?
当我使用glmnet
函数创建glmmod对象时,我包含family="binomial"
参数以指示我正在使用逻辑回归。但是,当我使用cv.glmnet
函数找到lambda的最佳值时,我无法指定逻辑回归。如果交叉验证不使用逻辑回归,我真的能获得lambda的最佳价值吗?
同样,当我使用predict.cv.glmnet
函数时,我无法指定逻辑回归。这个函数是否产生了我想要的预测?
答案 0 :(得分:2)
我对以下内容并不是100%肯定,因为正如您所注意到的那样,软件包似乎与其文档背道而驰,但它可能会产生一些迹象表明您的思路是否正确。
是的,你是对的。请注意,
> predict.glmnet(object=glmmod, newx=test.mtx, s=cv.glmmod$lambda.min, type="link")
1
1 -3.2589440
2 -0.4435265
3 3.9646670
4 0.3772816
5 0.9952887
6 -7.3555661
7 0.2283675
8 -2.3871317
9 -8.1632749
10 -1.3563051
与type="response"
的输出相同。因此,通过逆logit函数将是获得概率的正确方法。至于为什么会发生这种情况,我不知道 - 也许是一个错误。
对于cv.preds
,您可以获得符合概率的内容,因为您正在拟合高斯链接。为了适应logit链接,您应该指定family
参数。即:
cv.glmmod <- cv.glmnet(x=train.mtx, y=df.train$MADE.MAJORS, alpha=1, family="binomial")
> cv.preds
1
1 -10.873290
2 1.299113
3 15.812671
4 3.622259
5 5.621857
6 -24.826551
7 1.734000
8 -5.420878
9 -26.160403
10 -4.496020
在这种情况下,cv.preds
将沿实线输出,您可以通过逆logit将这些值放入以获取概率。