我是一名数据挖掘新手,需要一些高维数据集的帮助(子集如下所示)。它实际上有30个维度和几千行。
任务是查看它们是如何聚类的,以及是否可以根据此数据计算任何相似性指标。我已经看过SOM和余弦相似性方法,但不确定如何解决这个问题。
P.S。我对R或类似的统计数据包并不精通,会对基于C#/ .NET的库中的一些指点表示赞赏。
"ROW" "CPG" "FSD" "FR" "CV" "BI22" "MI99" "ME" "HC" "L1" "L2" "TL"
1 298 840 3.80 5.16 169.17 69 25.0 0.82 125 453 792
2 863 676 4.09 4.28 97.22 63 18.5 0.85 172 448 571
3 915 942 7.04 5.33 33.01 72 35.1 0.86 134 450 574
答案 0 :(得分:4)
我认为你所寻找的东西被称为多维缩放图(MDS),它非常简单,但你需要一个可以做一些线性代数/优化的库。
第一步是计算距离矩阵,这是所有数据点之间成对欧几里德距离的矩阵。
第二步是找到N个向量或特征(通常为2对于2d图),它们形成与步骤1中计算的最近距离矩阵。这相当于从平方距离获得具有N个最大特征值的特征向量矩阵。您可能能够找到一些可以用您选择的语言执行此操作的线性代数库。我总是使用R函数cmdscale()
来做到这一点:
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/cmdscale.html