使用R中的字云显示单个k表示来自聚类向量的聚类

时间:2013-10-25 11:49:57

标签: r cluster-analysis k-means

我从文档术语矩阵中创建了一个k-means集群。聚类向量如下:

 doc1.txt doc10.txt doc11.txt doc12.txt doc13.txt doc14.txt doc15.txt 
        3         3         3         3         1         3         3 
doc16.txt doc17.txt doc18.txt doc19.txt  doc2.txt doc20.txt doc21.txt 
        3         3         3         2         3         3         3 
doc22.txt doc23.txt doc24.txt doc25.txt doc26.txt doc27.txt doc28.txt 
        3         3         3         3         3         3         3 
doc29.txt  doc3.txt doc30.txt  doc4.txt  doc5.txt  doc6.txt  doc7.txt 
        3         3         3         1         1         1         3 
 doc8.txt  doc9.txt 
        3         3  

文件 - 术语矩阵如下:

     term1  term2  term3  term4  term4 
doc1   5      3     2      1      4
doc2   3      4     12     11     21
doc3   2      3     4      12     16
doc4   1      3     0      10     15
doc5   4      10    0      20     4
  .  
  .
  .

我的问题是如何访问群集3中的所有文档的数据并返回其中的矩阵! 我正在尝试使用wordcloud从群集3中的所有文档中绘制术语min.freq = 3的频率。

非常感谢

1 个答案:

答案 0 :(得分:3)

如果您的群集标签向量被称为clusters,则可以使用

docs3 <- gsub(".txt","",names(which(clusters==3)))

如果您的学期文档矩阵称为DTM,则可以通过

获取群集3中文档的子矩阵
DTM3 <- DTM[docs3,]