我有一些极端异常值抛弃我的回归模型,我使用If-Then-Else语句删除它们。然而,SAS完全消除了这些数据点,并在剩余的数据点中找到了新的异常值。有没有办法从分析中删除异常值而不会将更多内容投入到混合中?
我计算了Q3 + 1.5 * IQR并使用了该值:
Data lungcancer; input trt surv age sex @@;
/* create a new variable diff */
diff = surv - 365;
/* create a new categorical variable resp */
If diff > 0 then resp= 1;
If diff <= 0 then resp= 0;
/* create a new categorical variable sev */
if 2276 > surv >= 1621 then sev=0;
Else If 456 <= surv <= 1620 then sev=1;
Else if 181 <= surv <= 455 then sev=2;
Else if 1 <= surv <= 180 then sev=3;
Else if surv > 2276 then delete; /* Remove outliers */
答案 0 :(得分:0)
因此,您删除了数据边缘的一些数据点,然后获得了一组新数据,并重新计算了IQR,并且......对于有新的“异常值”感到惊讶?
这不是SAS做任何特别的事情,它正在做它所要求的事情,识别1.5 * IQR中的事物。离群值的移除总是取决于你(当你以这种方式做事时,无论如何,而不是使用我认为的更高级的过程之一):你决定什么是异常值并根据你的数据删除它。那么 - 您认为这些新数据点是异常值吗?是否删除。