我正在进行线性回归,我想修复一些输入。我找到了使用offset
执行此操作的方法。让我们在示例中看到它:
set.seed(145)
df <- data.frame(a = rnorm(10), b = rnorm(10), c = rnorm(10), d = rnorm(10))
summary(lm(formula = a ~ . + offset(0.1*c) - c + offset(0.05*d) - d, data = df))
问题是我有更多的变量,我想自动生成我的lm公式。
让我们说,我想传递输入的名称(即lm中的数据列)和它的系数值,例如以下一种方式:
inputs_fix <- c("c", "d")
inputs_fix_coef <- c(0.1, 0.05)
然后我需要一个函数,它为我写了一个如上所示的公式,但我不知道如何编写具有offset(0.1*c) - c + offset(0.05*d) - d
和inputs_fix
个对象的表达式inputs_fix_coef
。
有可能吗?还有另一种修复系数的方法(更优雅)?感谢任何帮助
更新:使用paste
和as.formula
创建带有@Jan van der Laan建议的公式
my.formula <- paste0(" + offset(", inputs_fix_coef, "*", inputs_fix, ") - ", inputs_fix, collapse = " ")
lm.fit <- lm(formula = as.formula(paste0("a ~ .", mi.expresion)), data = df))
它不是那么清楚,但它将所有输入保存到lm对象lm.fit$model
中,这些输入在@Jan van der Laan答案中丢失了。并且不需要复制data.frame
答案 0 :(得分:2)
处理此问题的一种方法是使用总偏移计算新列,并从数据集中删除偏移中使用的列:
# create copy of data withou columns used in offset
dat <- df[-match(inputs_fix, names(df))]
# calculate offset
dat$offset <- 0
for (i in seq_along(inputs_fix))
dat$offset <- dat$offset + df[[inputs_fix[i]]]*inputs_fix_coef[i]
# run regression
summary(lm(formula = a ~ . + offset(offset) - offset, data = dat))
也可以将公式生成为字符向量(使用paste
等),然后使用as.formula
转换为公式对象,但我怀疑上面的解决方案更清晰。