我有一个超过5000个观测数据帧。在我尝试使用分层聚类分析我的数据时,我有8个聚类,其中一些行包含几个1000或100个观察。
# Cut tree into 8 groups
cutree_hclust <- cutree(hclust.unsupervised, k = 8)
# Number of members in each cluster
table(cutree_hclust)
cutree_hclust
1 2 3 4 5 6 7 8
486 61 14 3 15 2 9 5
为了了解不同群集中每个观察的变量组合,我认为将8个群集作为数据帧可能是一个想法,因此我可以单独分析它们。这是因为我不知道不同列中的不同行是什么,因此不知道整个datafram(Complete_df)中的模式是什么。
但是,我如何制作这些新的数据帧?
我可以通过fx:
查看不同群集中的行rownames(MY_df)[cutree_hclust == 7]
[1] "65" "21" "21" "70" "101" "104" "112" "673"
[9] "651"
但如果我输入
h_clust <- as.dataframe( rownames(MY_df)[cutree_hclust == 7])
我只获得该群集中哪些行的视图(作为列表),并且不包括所有其他列。
但是如何将其转换为数据帧而不必使用方括号5000次键入行/列序列?