应用错误收集

当你有m个具有n个特征的二维向量时，我正在研究识别异常向量的最佳方法，例如：

a =[[1, 0, 1, 1, 1, 0, 1],
    [0, 0, 0, 1, 1, 1, 0],
    [0, 1, 1, 0, 0, 1, 1]]

在我的情况下，n和m是在100的。我想确定哪些向量是人口中的异常值。我已经在SciPy中使用Mahalanobis Distance和像HDBSCAN这样的软件包找到了一些信息（注意，我会在识别它们之后将这些异常值聚类在一起，看看异常值是否还有其他模式）。在这两种情况下，示例都是有限的，但我也不知道这是否是使用二进制向量的最佳方法。任何建议和示例或参考将不胜感激。

在Python

0 个答案: