在群集中查找异常值的标识

时间:2014-02-28 10:31:16

标签: python matplotlib machine-learning cluster-analysis svd

我是机器学习的新手,现在正在尝试使用奇异值分解(SVD)。根据我使用matplotlib在digram之后绘制的x和y值。我正在检测网络用户的异常活动。 在此图中,有一些像异常值的点。我想确定谁属于这些异常值。

为了让它更容易理解,我们采取以下数据集。

基于网页访问的原始矩阵。

matrix = mat( [[1,0,0,1,1,0,1,0,1,0], [1,0,0,0,1,0,1,0,1,1],[1,0,1,0,1,0,0,0,1,0],[0,1,1,1,0,1,0,1,0,0],[1,1,0,0,1,0,1,1,1,1],[0,0,1,0,1,1,0,1,0,0],[1,1,0,1,0,1,0,0,1,0],[1,0,0,0,1,0,1,1,1,1],[0,1,1,0,1,0,1,0,0,0],[1,1,0,1,0,1,0,1,1,0]] )
计算SVD后的x,y协调。

x = [-0.34095692,-0.34044722,-0.27155318,-0.21320583,-0.44657865,-0.19587836, -0.29414279, -0.3948753 ,-0.21655774 , -0.34857087]
y = [0.16305762,0.38554548, 0.10412536, -0.57981103, 0.17927523, -0.22612216, -0.34569697, 0.30463137,0.01301744,-0.42661108]

我想要的是找到属于给定数据点的人。在大型数据集中如何明智地如何找到异常值的身份?希望你理解我的问题。

enter image description here