为什么在Ridge回归中使用model.matrix减少观察次数?

时间:2019-02-24 17:33:04

标签: r regression glmnet lasso regularized

我在R中使用glmnet软件包进行岭回归。我尝试了ISLR包中的Hitters数据集。问题是,当我使用model.matrix创建设计矩阵时,由于未知原因,观察次数减少了。这是代码。

library(ISLR)
library(glmnet)

data("Hitters")

set.seed(1)
train=sample(1:nrow(Hitters), nrow(Hitters)/2)
test=(-train)

train.data = Hitters[train,]
test.data = Hitters[test,]
train.x=model.matrix(Salary~.,train.data)[,-1]
train.y=train.data$Salary

在代码中,我试图使用所有其他变量来预测薪水变量。 train.data有161个观测值,而train.x有131个观测值。我不明白为什么会发生这种情况,将不胜感激。

1 个答案:

答案 0 :(得分:1)

您在“工资”字段中有NA个值。

您可以这样确定问题:

missing.players <- setdiff(rownames(train.data), rownames(train.x))
train.data[missing.players, ]