我实际上是在尝试创建热图。因此,我需要找到一种合适的聚类方法。
以下是我的数据框的一个示例:
df1
g1 g2 g3 g4 g5 g6 g7 g8 g9 g10 g11
1 1 1 0 0 3 4 4 0 0 6 0
2 0 0 2 2 0 0 0 0 0 0 8
3 0 0 0 0 0 0 0 2 2 0 0
4 0 0 0 0 0 0 0 2 2 0 0
5 0 0 0 0 0 0 0 0 0 0 0
structure(list(g1 = c(1L, 0L, 0L, 0L, 0L), g2 = c(1L, 0L, 0L,
0L, 0L), g3 = c(0L, 2L, 0L, 0L, 0L), g4 = c(0L, 2L, 0L, 0L, 0L
), g5 = c(3L, 0L, 0L, 0L, 0L), g6 = c(4L, 0L, 0L, 0L, 0L), g7 = c(4L,
0L, 0L, 0L, 0L), g8 = c(0L, 0L, 2L, 2L, 0L), g9 = c(0L, 0L, 2L,
2L, 0L), g10 = c(6L, 0L, 0L, 0L, 0L), g11 = c(0L, 8L, 0L, 0L,
0L)), class = "data.frame", row.names = c(NA, -5L))
热图使我不想移动行,这是我与热图功能一起使用的设置:
ht1 = Heatmap(df1, cluster_rows=as.dendrogram(a),
column_title = "Heatmap",
top_annotation = ha_column2,col=c("white","blue","red","green","yellow"),
column_names_side = NULL,
show_heatmap_legend = FALSE,show_column_names = F,
clustering_distance_columns ="euclidean",
clustering_method_rows = "war.D2",
row_names_gp = gpar(fontsize = 6))
这是结果:
完成聚类的相应矩阵是:
g11 g1 g2 g3 g4 g8 g9 g5 g10 g6 g7
0 1 1 0 0 0 0 3 6 4 4
8 0 0 2 2 0 0 0 0 0 0
0 0 0 0 0 2 2 0 0 0 0
0 0 0 0 0 2 2 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0
但是问题就在这里,我正在寻找一种聚类方法,该方法考虑了将数字分配到列中的情况。 例如,如果我有:
A B C D E
0 2 9 0 4
1 0 0 8 0
0 0 0 0 0
0 0 0 0 0
我想将A和D聚集在一起,因为它们都有自己的性格:
0
number
0
0
并收集B,E和C,因为它们有性格:
number
0
0
0
并获取:
A D B E C
0 0 2 4 9
1 8 0 0 0
0 0 0 0 0
0 0 0 0 0
如果我将此规则应用于第一个数组,我应该得到这个:
g1 g2 g5 g6 g7 g10 g3 g4 g11 g8 g9
1 1 1 3 4 4 6 0 0 0 0 0
2 0 0 0 0 0 0 2 2 8 0 0
3 0 0 0 0 0 0 0 0 0 2 2
4 0 0 0 0 0 0 0 0 0 2 2
5 0 0 0 0 0 0 0 0 0 0 0
有人对使用R实现聚类算法有一个好主意吗? 感谢您的宝贵时间。
答案 0 :(得分:0)
这是一种使用dplyr
元数据包中的tidyr
和tidyverse
的方法。我怀疑在R基座中有一种更简单的方法...
首先,我通过使用df1
版本来确定列顺序,该版本将每个列中的所有行连接在一起,并将所有非零视为1。通过排序,我们得到了想要的顺序。然后,我依次抓取df1
和列。
library(tidyverse)
col_order <- data_frame(cols = names(df1),
concat = apply(df1, 2, paste0, collapse = "")) %>%
mutate(concat_binary = concat %>% str_replace_all("[123456789]", "1")) %>%
arrange(desc(concat_binary)) %>%
pull(cols)
df1 %>%
select(col_order)
# g1 g2 g5 g6 g7 g10 g3 g4 g11 g8 g9
#1 1 1 3 4 4 6 0 0 0 0 0
#2 0 0 0 0 0 0 2 2 8 0 0
#3 0 0 0 0 0 0 0 0 0 2 2
#4 0 0 0 0 0 0 0 0 0 2 2
#5 0 0 0 0 0 0 0 0 0 0 0