标签: kernel smoothing outliers skew
我有一个名为“price”的变量,其分布看起来确实有偏差。我计划使用核密度估计来检测异常值。这个有什么好主意吗?
谢谢!
答案 0 :(得分:0)
如果我理解你正在寻找低振幅的局部最大值?您可以检查斜率转换的核密度。正态分布应该是POS-NEG。如果您的平滑功能足够平滑,则主数据应如下所示。异常值会在斜率上增加额外的POS-NEG过渡。
斜率函数的计算方法与内核本身类似,但使用您选择的窗口函数的导数。
相应地调整平滑参数并移除导致局部最大振幅过大的样本。