如何预测r中缺失值的数据

时间:2018-02-28 20:41:34

标签: r prediction missing-data

我有一个大小为60的数据集,所有观察结果都有相同的变量。其中30个具有胜利值(y),其中30个我已被删除以进行预测。

在sas中,当您希望模型预测未知y(结果)的值时,在数据线中为Y值添加一个点并运行回归。该模型将基于具有Y值的30个观测值,然后针对不具有Y值的30个观测值进行预测。

在r中,我将Y值作为我想要预测的观察值的NA。但是,该模型忽略了那些缺失值,而没有给出这些观察结果的预测结果。

如何让模型预测丢失的Y变量的值?

1 个答案:

答案 0 :(得分:0)

如果您试图预测样本数据,请执行以下操作:

# Here I just generate some data, since no provided
X <- matrix(data = rnorm(400), ncol = 4)
B <- c(0.5, -0.5, 2, 0)
y <- X %*% B
dt <- data.frame(cbind(y, X))
names(dt) <- c("y", paste0("x", 1:4))

# Start with estimation on in-sample 
train_dt <- dt[1:50, ]
mod <- lm(formula = y ~ ., data = train_dt)

# Predict on out of sample
that <– predict(object = mod, newdata = dt[51:100, ])

# Calculate error, should be almost the same
eps <- yhat - y[51:100]

# In this example should be close to zero
all(eps) < 1e-10)