在R中的线性回归模型下识别具有最高平方残差的离群值

时间:2017-10-27 20:26:12

标签: r regression outliers

我有1000个数据点的数据集[1000 x 80],每个数据点有80个变量值。我必须线性回归两个变量:价格和面积,并确定具有最高平方残差的5个数据点。对于这些已识别的数据点,我必须显示80个变量值中的4个。

我不知道如何使用残差来识别原始数据点。我目前只有:

model_lm <- lm(log(price) ~ log(area), data = ames) 

我可以就如何处理上述问题获得一些指导

1 个答案:

答案 0 :(得分:1)

model_lm对象将包含一个名为“residuals”的变量,其残差与原始观察值的顺序相同。如果我正确地理解了这个问题,那么一个简单的方法就是基础R:

ames$residuals <- model_lm$residuals  ## Add the residuals to the data.frame

o <- order(ames$residuals^2, decreaseing=T)   ## Reorder to put largest first

ames[o[1:5],]   ## Return results