如果存在大量异常值(通过箱图确定),应该应用哪些数据处理/转换?

时间:2018-04-23 09:35:44

标签: python pandas machine-learning data-cleaning outliers

我提到了这个post并使用pandas boxplot来绘制我的数值预测变量和目标变量并得到以下结果( pid demand 成为目标,停留所有预测变量): predictor_target_boxplot_img。 我很困惑,怎么会有这么多的异常值(考虑点上面的胡须),如果它们确实是真正的异常值,那么如何处理它们呢?

1 个答案:

答案 0 :(得分:0)

  

您可以限制所有3-SD(标准版)的异常值   偏差)偏离某个值并继续分析。

df[ df > value_greater_than_SDaway ] = value_to_be_replaced_with