在Python

时间:2017-03-30 17:45:58

标签: python scipy dbscan mahalanobis

当你有m个具有n个特征的二维向量时,我正在研究识别异常向量的最佳方法,例如:

a =[[1, 0, 1, 1, 1, 0, 1],
    [0, 0, 0, 1, 1, 1, 0],
    [0, 1, 1, 0, 0, 1, 1]]

在我的情况下,n和m是在100的。我想确定哪些向量是人口中的异常值。我已经在SciPy中使用Mahalanobis Distance和像HDBSCAN这样的软件包找到了一些信息(注意,我会在识别它们之后将这些异常值聚类在一起,看看异常值是否还有其他模式)。在这两种情况下,示例都是有限的,但我也不知道这是否是使用二进制向量的最佳方法。任何建议和示例或参考将不胜感激。

0 个答案:

没有答案