目的是基于多元回归模型预测新的观测结果。
该模型包括两个因素(带效果编码的“ ec”,带伪编码的“ dc”)和一个数字变量(“ num”)以及一个交互项“ ec”和“ num”。
但是,基于新数据的predict.lm函数失败。
# Dependent variable
y <- rnorm(12, 50, 10)
# Independent variables
# Dummy coding
dc <- factor(x=c("Schlecht", "Gut", "Mittel", "Schlecht", "Gut", "Mittel", "Schlecht", "Gut", "Mittel", "Schlecht", "Gut", "Mittel"))
contrasts(dc) <- contr.treatment(3, 1)
# Effect coding
ec <- factor(x=c("A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D"))
contrasts(ec) <- contr.sum(4)
num <- rnorm(12, 10, 2)
# Design matrix
df <- data.frame(dc = dc, ec = ec, num = num)
lm_dm <- model.matrix(~ 1 + ec + dc * num, df)
lm <- lm(y ~ 0 + lm_dm)
# prediction
newdata <- data.frame(dc = c("Schlecht", "Gut", "Gut"), ec = c("C", "D", "B"), num = c(9, 8, 12))
predict.lm(lm, newdata)
如何使用估计的模型进行新的预测?
答案 0 :(得分:0)
问题在于该模型是使用外部矩阵而不是使用data
参数来估计的。相反,我们可以这样做
mod <- lm(y ~ 1 + ec + dc * num, data = df)
predict.lm(mod, newdata)
# 1 2 3
# 24.19016 71.26768 59.50670
尝试不使用它很复杂。例如,您的mod
版本中的变量的名称为lm_dmec1
,lm_dmdc3
,我们需要对其进行匹配。此外,在整体上提供lm_dm
的过程中,我们丢失了ec
和dc
是因素的信息;因此,我们无法将dc
和ec
用作您newdata
中的因素;相反,我们必须为 all 所有级别提供虚拟变量。因此,最好的替代方法似乎是手动执行预测:
model.matrix(~ 1 + ec + dc * num, newdata) %*% coef(mod)
# [,1]
# 1 57.08853
# 2 31.90847
# 3 47.81049