多维数据聚类

时间:2013-05-22 18:42:57

标签: dataset data-mining cluster-analysis data-analysis

我是一名数据挖掘新手,需要一些高维数据集的帮助(子集如下所示)。它实际上有30个维度和几千行。

任务是查看它们是如何聚类的,以及是否可以根据此数据计算任何相似性指标。我已经看过SOM和余弦相似性方法,但不确定如何解决这个问题。

P.S。我对R或类似的统计数据包并不精通,会对基于C#/ .NET的库中的一些指点表示赞赏。

"ROW"   "CPG"   "FSD"   "FR"    "CV"    "BI22"  "MI99"  "ME"    "HC"    "L1"    "L2"    "TL"    
1   298 840 3.80    5.16    169.17  69  25.0    0.82    125 453 792 
2   863 676 4.09    4.28    97.22   63  18.5    0.85    172 448 571 
3   915 942 7.04    5.33    33.01   72  35.1    0.86    134 450 574 

1 个答案:

答案 0 :(得分:4)

我认为你所寻找的东西被称为多维缩放图(MDS),它非常简单,但你需要一个可以做一些线性代数/优化的库。

第一步是计算距离矩阵,这是所有数据点之间成对欧几里德距离的矩阵。

第二步是找到N个向量或特征(通常为2对于2d图),它们形成与步骤1中计算的最近距离矩阵。这相当于从平方距离获得具有N个最大特征值的特征向量矩阵。您可能能够找到一些可以用您选择的语言执行此操作的线性代数库。我总是使用R函数cmdscale()来做到这一点:  http://stat.ethz.ch/R-manual/R-patched/library/stats/html/cmdscale.html