我正在尝试对包含72行和1869列的一组基因数据进行聚类分析。数据的最后一列包含类别标签,用于标识每个观察结果属于两种亚型的白血病。
我希望能够对1:1868列执行聚类分析,然后使用1869列中的类标签沿树状图的x轴显示。
我一辈子都想不出如何对指定的列执行聚类分析,同时为类标签添加最后一列。
下面是示例的一小部分数据:
v1 v2 v3 v4 v5 classLabels
10 10 283 247 146 2
38 242 10 179 34 2
10 33 206 10 19 1
10 10 112 10 10 2
49 141 52 878 10 1
24 10 100 307 48 2
265 158 49 31 363 1
10 10 70 252 155 1
215 67 87 193 325 1
10 10 249 561 275 2
最终结果将是包含值的列的树状图,并且classLabels数据显示在树状图的x轴上。
在此问题之前,我一直在使用的代码用于聚类分析:
SLA <- hclust(tissue_data, method = "single")
plot(SLA, main = "Single Linkage of Gene Data", xlab = "", sub = "", hang = -1, labels = FALSE)
在上面的代码中,标签设置为false,而tissue_data数据框包含1:1868列,其中包含类标签的列已被删除并留在另一个数据框中。