在异常值检测中将高维数据随机投影到低维数据中是否有意义?

时间:2016-09-01 08:47:05

标签: algorithm machine-learning outliers unsupervised-learning

我有一些高维数据,我想从中检测异常值。我知道如果我处理低维数据,我可以进行聚类,然后检查数据点是否属于一个聚类,或者计算从它到k个最近邻居的平均距离等。但我可以&# 39;由于尺寸的诅咒,在高维数据上做这些。

所以我想也许我可以将高维数据随机投影到低维数据,并检查数据点的投影是否在大多数变换数据集中都是异常值。我的假设是,在大多数预测中,较高维度的异常值似乎也应该是低维的异常值。

例如,从R^4随机生成一些投影(假设我们有R^4中的维度诅咒)到R^2(我们可以通过传统方法聚类),用{表示{3}}(所有这些都是带有随机元素的P1, P2, P3 .. Pn矩阵)。假设我们想要检测2x4中的异常值。如果许多a1, a2 .. an k Pk*am中的异常值是Pk*a1, Pk*a2 .. Pk*an,则am是异常值。

有意义吗?

1 个答案:

答案 0 :(得分:-1)

执行异常检测的典型方法是使用principle component analysis执行降维。这个想法类似于你描述的,但它使用线性代数来明智地选择执行投影的确切方法。这样做可以保证投影中丢失的信息量最少。