如果我的随机变量X已被标准化,我想知道是否要删除异常值。我有这个问题,因为我在X中的所有值都在0到1之间,并且由于异常值不是完全极端,所以不会影响我的变量X。
答案 0 :(得分:0)
什么是离群值?
错误的数据管理可能会导致一些异常值;有人真正表示“ 5.000”时输入“ 5,000”。如果是这种情况,则必须删除异常值,因为它们是错误的,即存在测量错误。
但是,离群值也可以具有其他含义。假设您有一些似乎是标准正态分布的变量X的样本。但是,在您的数据集中,您也有一些很高/很低的情况,在正态性假设下似乎不太可能。在这种情况下,某些人倾向于忽略那些非常高/很低的值,我个人认为这是不正确的-因为就实际数据生成过程而言,它们似乎是最有用的信息(假设我们可以将测量误差排除在外)值的来源)。
希望我能为您提供帮助。