我在R中使用glmnet软件包进行岭回归。我尝试了ISLR包中的Hitters数据集。问题是,当我使用model.matrix创建设计矩阵时,由于未知原因,观察次数减少了。这是代码。
library(ISLR)
library(glmnet)
data("Hitters")
set.seed(1)
train=sample(1:nrow(Hitters), nrow(Hitters)/2)
test=(-train)
train.data = Hitters[train,]
test.data = Hitters[test,]
train.x=model.matrix(Salary~.,train.data)[,-1]
train.y=train.data$Salary
在代码中,我试图使用所有其他变量来预测薪水变量。 train.data有161个观测值,而train.x有131个观测值。我不明白为什么会发生这种情况,将不胜感激。
答案 0 :(得分:1)
您在“工资”字段中有NA
个值。
您可以这样确定问题:
missing.players <- setdiff(rownames(train.data), rownames(train.x))
train.data[missing.players, ]