获得警告:“'newdata'有1行但找到的变量有32行”在predict.lm上

时间:2014-12-13 23:51:01

标签: r prediction lm

我在R中使用预测和lm函数时发现了特性。我对相同数据的数据帧和向量得到了不同的结果。

DataFrame代码:

data(mtcars)
fitCar<-lm(mtcars$mpg~mtcars$wt)
predict(fitCar,
        data.frame(x=mean(mtcars$wt)),
        interval="confidence")

输出:

     fit       lwr      upr
1  23.282611 21.988668 24.57655
2  21.919770 20.752751 23.08679
3  24.885952 23.383008 26.38890
4  20.102650 19.003004 21.20230
5  18.900144 17.771469 20.02882
6  18.793255 17.659216 19.92729
7  18.205363 17.034274 19.37645
8  20.236262 19.136179 21.33635
9  20.450041 19.347720 21.55236
10 18.900144 17.771469 20.02882
11 18.900144 17.771469 20.02882
12 15.533127 14.064349 17.00190
13 17.350247 16.104455 18.59604
14 17.083024 15.809403 18.35664
15  9.226650  6.658271 11.79503
16  8.296712  5.547468 11.04596
17  8.718926  6.052112 11.38574
18 25.527289 23.927797 27.12678
19 28.653805 26.519252 30.78836
20 27.478021 25.554415 29.40163
21 24.111004 22.715653 25.50635
22 18.472586 17.319886 19.62529
23 18.926866 17.799465 20.05427
24 16.762355 15.452833 18.07188
25 16.735633 15.423002 18.04826
26 26.943574 25.112491 28.77466
27 25.847957 24.198041 27.49787
28 29.198941 26.963760 31.43412
29 20.343151 19.242185 21.44412
30 22.480940 21.268498 23.69338
31 18.205363 17.034274 19.37645
32 22.427495 21.219818 23.63517

警告讯息:

  

&#39; newdata&#39;有1行但找到的变量有32行

当我将两个数据分成矢量时,我得到了不同的答案

矢量代码

predict(fit,data.frame(x=mean(x)), interval="confidence")

输出:

    fit   lwr   upr
1 20.09 18.99 21.19

造成这种差异的原因是什么?

5 个答案:

答案 0 :(得分:75)

这是在datanewdata之间使用不同名称的问题,而不是使用向量或数据框之间的问题。

如果您使用lm函数调整模型,然后使用predict进行预测,predict会尝试在newdata上找到相同的名称。在您的第一个案例中,名称xmtcars$wt冲突,因此您会收到警告。

请在此处查看我所说的内容:

这就是你所做的,并没有得到错误:

a <- mtcars$mpg
x <- mtcars$wt

#here you use x as a name
fitCar <- lm(a ~ x) 
#here you use x again as a name in newdata.
predict(fitCar, data.frame(x = mean(x)), interval = "confidence") 

       fit      lwr      upr
1 20.09062 18.99098 21.19027

在这种情况下,您可以使用名称x来拟合模型,并使用newdata中的名称x进行预测。这样你就不会得到任何警告,而这正是你所期望的。

让我们看看当我适应模型时将名称更改为其他内容时会发生什么:

a <- mtcars$mpg
#name it b this time
b <- mtcars$wt 

fitCar <- lm(a ~ b) 
#here I am using name x as previously
predict(fitCar, data.frame(x = mean(x)), interval = "confidence") 

         fit       lwr      upr
1  23.282611 21.988668 24.57655
2  21.919770 20.752751 23.08679
3  24.885952 23.383008 26.38890
4  20.102650 19.003004 21.20230
5  18.900144 17.771469 20.02882
Warning message:
'newdata' had 1 row but variables found have 32 rows 

我现在唯一做的就是在将模型拟合到x时更改名称b,然后使用x中的名称newdata进行预测。正如您所看到的,我遇到了与您的问题相同的错误。

希望现在很清楚!

答案 1 :(得分:9)

在lm函数的公式中,不要使用datasetname $ variablename模式引用变量。而是使用variablename + variablename ...这不会抛出警告:&#39; newdata&#39;有nrow(测试)行但找到的变量有nrow(train)行。

答案 2 :(得分:8)

解决这个问题的方法是使用以下方法:

fitCar<-lm(mpg ~ wt, mtcars) #here you use x as a name
predict(fitCar,data.frame(wt=mean(mtcars$wt)), interval="confidence") 

答案 3 :(得分:1)

当我将变量名与使用$符号的数据名结合使用时,我遇到了同样的问题。

所以代替:

fitCar<-lm(mtcars$mpg~mtcars$wt)
predict(fitCar,
        data.frame(x=mean(mtcars$wt)),
        interval="confidence")

使用此:

fitCar<-lm(mpg~wt , data = mtcars)
predict(fitCar,  
wt = mean(mtcars$wt), interval = "confidence")

答案 4 :(得分:0)

不是将lm定义为fitCar <-lm(mtcars $ mpg〜mtcars $ wt),而是将其更改为fitCar <-lm(mpg〜wt,data = mtcars)。这似乎可以解决此错误。