我从文档术语矩阵中创建了一个k-means集群。聚类向量如下:
doc1.txt doc10.txt doc11.txt doc12.txt doc13.txt doc14.txt doc15.txt
3 3 3 3 1 3 3
doc16.txt doc17.txt doc18.txt doc19.txt doc2.txt doc20.txt doc21.txt
3 3 3 2 3 3 3
doc22.txt doc23.txt doc24.txt doc25.txt doc26.txt doc27.txt doc28.txt
3 3 3 3 3 3 3
doc29.txt doc3.txt doc30.txt doc4.txt doc5.txt doc6.txt doc7.txt
3 3 3 1 1 1 3
doc8.txt doc9.txt
3 3
文件 - 术语矩阵如下:
term1 term2 term3 term4 term4
doc1 5 3 2 1 4
doc2 3 4 12 11 21
doc3 2 3 4 12 16
doc4 1 3 0 10 15
doc5 4 10 0 20 4
.
.
.
我的问题是如何访问群集3中的所有文档的数据并返回其中的矩阵! 我正在尝试使用wordcloud从群集3中的所有文档中绘制术语min.freq = 3的频率。
非常感谢
答案 0 :(得分:3)
如果您的群集标签向量被称为clusters
,则可以使用
docs3 <- gsub(".txt","",names(which(clusters==3)))
如果您的学期文档矩阵称为DTM,则可以通过
获取群集3中文档的子矩阵DTM3 <- DTM[docs3,]