发现分类数据记录中的异常

时间:2018-02-27 10:06:42

标签: python machine-learning statistics data-science

我有一个带有m个观测值和p个分类变量(标称值)的数据集,每个变量X1,X2 ...... Xp有几个不同的类别(可能的值)。最后,我正在寻找一种方法来查找异常,即识别与我到目前为止所看到的数据相比,值的组合看起来不正确的行。到目前为止,我正在考虑构建一个模型来预测每列的值,然后构建一些度量来评估实际行与预测行的差异。我非常感谢任何帮助!

1 个答案:

答案 0 :(得分:0)

查看最近的邻域方法和聚类分析。度量标准可以是简单的(如平方误差),甚至可以是自定义的(每个类别都有预定义的权重)。

最近的社区将回答“与另一行的当前行有多么不同”的问题,聚类分析将回答“是否异常”的问题。一些可视化也可能有所帮助(T-SNE)。