我正在尝试构建一个线性回归预测器,它将获取已知数据(house_train)并预测另一个数据集(house_test)中的缺失值。完整的训练数据有8,973行,测试数据有1,063行。我希望最终结果是两列,id和预测值:
id price2013
6 639400
13 340034
20 96381
我不断遇到与不匹配数字有关的错误。
Error in data.frame(id = house_test$id, price2013 = predict(my.model, :
arguments imply differing number of rows: 1063, 8973
我真的只想要在house_test中找不到price2013的预测值。我已经尝试了几种变体,我似乎总是得到一些数字错误的变体。我是新手,所以我真的无法找到导致它的原因。感谢您对此提供的任何帮助。
此致 沙
house_train=data.frame(id=c(0,1,2,3,4),
state=c(NY,NY,IL,CA,NY),
county=c(bronx,kings,cook,san francisco,queens),
price2007=c(335200,471500,254600,707100,636400),
price2013=c(294000,471600,174200,822600,681500))
house_test=data.frame(id=c(6,13,20),
state=c(FL,TX,NY),
county=c(marion,hidalgo,kings),
price2007=c(265600,79900,332000))
my.model <- lm(price2013~state+county, data=house_train)
my.predictions <-data.frame(id = house_test$id, price2013 = predict(my.model,
data=house_test))