Cluster 3.0中的分层聚类分析

时间:2013-05-12 02:05:49

标签: cluster-analysis hierarchical-clustering

我是这个网站的新手,也是群集分析的新手,所以如果我违反惯例,我会道歉。

我一直在使用Cluster 3.0来执行具有欧几里德距离和平均链接的分层聚类分析。 Cluster 3.0输出一个.gtr文件,其中包含一个连接基因的节点及其相似性得分。我注意到.gtr文件中的第一行总是将基因与另一个基因连接,然后是相似性得分。但是,我如何重现这种相似性得分呢?

在我的数据集中,我有8个基因并创建一个距离矩阵,其中d_ {ij}包含基因i和基因j之间的欧几里德距离。然后我通过将每个元素除以矩阵中的最大值来规范化矩阵。为了得到相似度矩阵,我从1中减去所有元素。但是,我的结果不使用链接类型,而是与输出相似度得分不同。

我主要想知道联系如何影响第一个节点的相似性(两个最接近的基因的连接)以及如何计算相似性得分。

谢谢!

1 个答案:

答案 0 :(得分:1)

算法使用某种链接方法比较 cluster ,而不是数据点。但是,在算法的第一次迭代中,每个数据点形成自己的簇;这意味着您的链接方法实际上已缩减为用于测量数据点之间距离的度量(对于您的情况欧几里德距离)。对于后续迭代,将根据您的链接方法测量簇之间的距离,在您的情况下是平均链接。对于两个群集 A B ,计算方法如下:

enter link description here

其中d(a,b)是两个数据点之间的欧几里德距离。说服自己,当 A B 只包含一个数据点时(如在第一次迭代中),此等式将自身缩减为d(a,b)。我希望这会让事情变得更加清晰。如果没有,请提供您想要做的更多细节。