所以我提出了这个问题:
(a)训练集包含对7个协变量的1000个观测值,最后一个(第8个)列包含连续响应变量。预测协变量的响应变量。
(b)测试集包含对7个协变量的500个观测值。使用您在(a)部分中选择的模型提供响应预测。
我不确定我是否正确地这样做了。我读过.csv文件并做了一些回归。以下是我一直在尝试的内容:
train.lm<-lm(y~., data=train)
summary(train.lm)
predict(train.lm, train)
predict(train.lm, test)
我是否在正确的轨道上?
非常感谢任何帮助。