非正态分布数据的异常检测

时间:2019-03-28 13:35:55

标签: python machine-learning data-science outliers

我有一个很大的数据集,其中包含公司的年度关系。 在此数据集中,我想检测错误/离群值。这些异常值主要是人为输入错误。由于我的数据不是正态分布的,因此我很难确定哪种方法是解决此问题的最佳策略。

我的数据集包含约100列。

有人在检测人为错误的技术上有一些投入吗? 考虑逗号错误,到许多零,等等

提前谢谢

1 个答案:

答案 0 :(得分:0)

看来这是一个复杂的问题。 看起来您的数据具有以下功能。 1. NLP知识:公司融洽的文章。要对其进行分析,必须调整NLP。 2.高尺寸:目前您大约有100列,考虑到NLP分解的结果,在某些情况下您可能有数千列。 3.非正态分布。

要解决此问题,您可以尝试: 1.使用NLP方式将文章转换为数字信息 2.使用典型的新颖或异常工具进行查找。您可以尝试SKlearn模型。 https://scikit-learn.org/stable/modules/outlier_detection.html

希望它可以为您提供帮助。