我有家庭身份证及其各自的销售额。事实证明,这些HH ID的总销售额非常高。你们能为异常治疗提出一个好的方法吗? 如果你在SAS中建议,那就太好了。
此致 萨基特
答案 0 :(得分:2)
以下是一种基本的,相当粗略的方法。它涉及从平均值中删除超过3个标准差的值: -
** Standardise data;
proc standard data=sales_data mean=0 std=1 out=sales_data_std;
var sales;
run;
** Remove values more than 3 std devs from mean;
data sales_data_no_outliers;
set sales_data_std;
where sales < -3 or sales > 3;
run;
在Wikipedia中有对此方法的引用。
仍然是它的原油;它依赖于你的变量是正态分布的,并且几乎总能找到异常值(如果n> 100),即使在合理的情况下,这些值并非真正偏离。
异常值的主题冗长而详细,但粗略概述该主题可能会有用。不幸的是,我无法想到任何相关的介绍性资源。