整合隔离林中的缺失值

时间:2019-03-21 15:52:22

标签: algorithm tree xgboost outliers isolation

当前的XGBoost算法能够通过在训练过程中通过将损失最小化来选择-best-方向来处理缺失值(source)。在我们机构中,此功能在处理稀疏表格数据时具有巨大的价值。

我们的下一个项目是关于检测相似数据集中的离群值;庞大的表格数据集,且缺少大量数据。我们遇到的有趣的技术之一是隔离森林。现在,我们想探索将XGBoost之类的功能用于缺失值的功能集成到当前的隔离林中的可能性。随后,我有两个问题;

1]这种将丢失的数据处理集成到隔离林中的想法在技术上是否可行,并且最重要的是吗?

2]在这些情况下,其他丢失的数据处理技术(例如,插补优先)或什至其他异常检测算法会更好吗?

请让我听听您的建议,这将非常有价值! 预先谢谢你。

0 个答案:

没有答案