数据挖掘中的异常值处理

时间:2018-09-23 17:58:08

标签: machine-learning data-mining missing-data outliers

我的“身体质量指数”列中有一个离群值,与其他数据相距甚远。第二个最大值是38.1,而离群值是294。实际上是29.4,并且在收集数据时发生错误。由于数据数量有限,我不想删除该行。谁能说出解决此问题的最佳技术方法?这是将值视为缺失并应用诸如期望最大化插补或贝叶斯多重插补之类的好方法吗?请帮我解决问题。谢谢

2 个答案:

答案 0 :(得分:1)

检测不良数据,如有必要,用您喜欢的任何数据插补技术将其替换。

当然,最好只保留不良数据,并设计足够强大的整体方法来处理此问题。

答案 1 :(得分:0)

是的,如果确实是离群值,则可以将其删除并使用插补技术替换它。

请确保您在使用多重插补概念之前先了解它。如果要正确使用MI,还必须在插补本身之后更改处理步骤。 (如果您正在使用的话,可以看看mouses包)

如果您不想使用多个估算数据集,那么基于EM的估算算法是一个不错的选择。 (如果您使用的是R,则可以查看软件包VIM或imputeR)