精确预测离群值

时间:2018-12-20 22:49:34

标签: machine-learning neural-network xgboost outliers

我正在研究与血压计算(回归问题)有关的医学数据。我目前拥有的数据集缺少收缩压和舒张压bp极值的数字。我目前使用的算法是Neural Networks和XGBoost,它们都将极值视为离群值并给出高关于离群值的预测的MAE。有没有一种方法可以调整算法或数据集,以便算法可以对“异常值”给出合理的预测?我听说对因变量的对数刻度转换可以解决,对吗?还有其他方法吗?

预先感谢 阿琼

1 个答案:

答案 0 :(得分:0)

对数刻度转换将使您的目标分布看起来正常(可能)。如果是这样-您很幸运。

如果它不起作用:

  1. 从数据集中删除异常值。此时此刻,他们什么都没有带来。这完全损害了模型。
  2. 在正常值上建立一个模型(回归),在离群值上建立另一个模型。您可以尝试简化的最后一个方法:将输入值编码为0和1(正常值和异常值)。
  3. 使用更简单的模型(线性:套索作为起点,hubert)。像NN和XGB这样的复杂模型最终会在您的几种极端情况下过拟合。

这些是常见的方法。但是,总的来说,您需要返回EDA并尝试分析这些极端情况:绘制分布图,了解收缩期和舒张期bp极端情况之间的依存关系,极端情况与目标变量之间的依存关系(和相关性等等)。 / p>