我有1000个数据点的数据集[1000 x 80],每个数据点有80个变量值。我必须线性回归两个变量:价格和面积,并确定具有最高平方残差的5个数据点。对于这些已识别的数据点,我必须显示80个变量值中的4个。
我不知道如何使用残差来识别原始数据点。我目前只有:
model_lm <- lm(log(price) ~ log(area), data = ames)
我可以就如何处理上述问题获得一些指导
答案 0 :(得分:1)
model_lm对象将包含一个名为“residuals”的变量,其残差与原始观察值的顺序相同。如果我正确地理解了这个问题,那么一个简单的方法就是基础R:
ames$residuals <- model_lm$residuals ## Add the residuals to the data.frame
o <- order(ames$residuals^2, decreaseing=T) ## Reorder to put largest first
ames[o[1:5],] ## Return results