我有一个数据集,我将其称为 dataset1 ,带有预测变量(例如 Price )。我希望根据数据集中存在的 n 其他预测变量得到一个很好的单一预测价格。但如果 n 很大,我无法手动制作和检查所有这些模型,所以我希望使用这样的东西:
for (i in names(dataset1)) {
model = lm(Price~i, dataset1)
# Do stuff here with model, such as analyze R^2 values.
}
(我认为这会有效,因为用print(i)替换for循环的内部会得到正确的名称。)错误如下:
Error in model.frame.default(formula = Price ~ i, data = dataset1, drop.unused.levels = TRUE) :
variable lengths differ (found for 'i')
有没有人建议处理有关R如何读取 i 变量的问题?我知道如何使用其他软件来解决这个问题,但我想了解R的工作原理。
答案 0 :(得分:2)
我会亲自去找某种*apply
:
dat <- data.frame(price=1:10,y=10:1,z=1:10)
sapply(dat[2:3], function(q) coef(summary(lm(dat$price ~ q)))[2])
y z
-1 1
或获取包含完整模型结果的列表:
lapply(dat[2:3], function(q) coef(summary(lm(dat$price ~ q))))
$y
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11 1.137008e-15 9.674515e+15 1.459433e-125
q -1 1.832454e-16 -5.457163e+15 1.423911e-123
$z
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.123467e-15 2.457583e-16 4.571429e+00 1.822371e-03
q 1.000000e+00 3.960754e-17 2.524772e+16 6.783304e-129
获得你提到的r平方值:
sapply(dat[2:3], function(q) summary(lm(dat$price ~ q))$r.squared)
答案 1 :(得分:0)
目前你没有骑自行车穿过这些名字。尝试
for(i in 2:ncol(dataset1)) #assuming Price is column 1
然后参考
Price ~ dataset1[, i]
你的循环中的。
但从统计数据的角度来看,我不确定你的方法。