在获取glmnet与glm的处理时,我遇到了lambda = 0和family =“poisson”的收敛问题。我的理解是,在lambda = 0(和alpha = 1,默认值)的情况下,答案应该基本相同。
下面的代码与glmnet帮助页面(?glmnet)上的poisson示例略有不同。唯一的变化是nzc = p,所以所有变量都在真实模型中
N=1000; p=50
nzc=p
x=matrix(rnorm(N*p),N,p)
beta=rnorm(nzc)
f = x[,seq(nzc)]%*%beta
mu=exp(f)
y=rpois(N,mu)
#With lambda=0 glmnet throws the convergence error shown below
fit=glmnet(x,y,family="poisson",lambda=0)
#It works with default lambda passed in
# but estimates are quite different from glm.
fit=glmnet(x,y,family="poisson") #use default lambdas
fit2=glm(y~x,family="poisson")
plot(coef(fit2)[2:(p+1)],
coef(fit,s=min(fit$lambda))[2:(p+1)],
xlab="glm",ylab="glmnet")
abline(0,1)
#works fine with gaussian response and lambda=0 or default lambda
#glm and glmnet identical
mu = f
y=rnorm(N,mu)
fit=glmnet(x,y,family="gaussian",lambda=0)
fit2=glm(y~x)
plot(coef(fit2)[2:(p+1)], coef(fit)[2:(p+1)])
abline(0,1)
这是错误消息
Warning messages:
1: from glmnet Fortran code (error code -1); Convergence for 1th lambda value not reached after maxit=100000 iterations; solutions for larger lambdas returned
2: In getcoef(fit, nvars, nx, vnames) :an empty model has been returned; probably a convergence issue
更新: 问题似乎是当家庭=“泊松”并且与lambda本身的设置无关时,由glmnet估计的截距。
fit=glmnet(x,y,family="poisson")
#intercept should be close to 0
coef(fit)[1,]
#but it is huge
#passing in intercept=FALSE however generates the convergence error again
fit=glmnet(x,y,family="poisson", intercept=FALSE)
答案 0 :(得分:1)
我认为你对lambda和alpha感到困惑。 alpha
是惩罚因子,设置为0会给你岭回归。通常它设置为0.1到1之间的值。lambda
通常没有设置,并且帮助页面上有一个警告,不要将它设置为单个值:
WARNING: use with care. Do not supply a single value for lambda
我不知道为什么你认为套索惩罚应该与无人值守的泊松模型相同。惩罚模型的重点在于较少受普通回归模型的偏差和约束的影响。
答案 1 :(得分:0)
您收到错误是因为您尝试将lambda = 0传递给glmnet。 如果要从glmnet中为lambda = 0选择系数,可以使用:
coef(fit, s=0)
这会自动选择lambda的最后一个(最小)值。我猜你已基本完成了这项工作,s = min(fit$lambda)
。如果你想要比你更小,你可能需要手动输入一个lambda序列,但这有点棘手(glmnet似乎对它的lambda有点固执)。
另请注意,glmnet可能存在偏差,因此可能与glm的结果略有不同。