我正在研究与血压计算(回归问题)有关的医学数据。我目前拥有的数据集缺少收缩压和舒张压bp极值的数字。我目前使用的算法是Neural Networks和XGBoost,它们都将极值视为离群值并给出高关于离群值的预测的MAE。有没有一种方法可以调整算法或数据集,以便算法可以对“异常值”给出合理的预测?我听说对因变量的对数刻度转换可以解决,对吗?还有其他方法吗?
预先感谢 阿琼
答案 0 :(得分:0)
对数刻度转换将使您的目标分布看起来正常(可能)。如果是这样-您很幸运。
如果它不起作用:
这些是常见的方法。但是,总的来说,您需要返回EDA并尝试分析这些极端情况:绘制分布图,了解收缩期和舒张期bp极端情况之间的依存关系,极端情况与目标变量之间的依存关系(和相关性等等)。 / p>