k-均值聚类在项 - 期共生矩阵上

时间:2016-05-02 18:18:42

标签: r matrix cluster-analysis sparse-matrix

我从R中的文档 - 术语矩阵中导出一个术语 - 术语共生矩阵K.我有兴趣对关键词 - 关键词矩阵K进行K均值聚类分析。 K是8962条x 8962条款。

我将K传递给kmeans函数,如下所示:

for(i in 1:25){
    #Run kmeans for each level of i, allowing up to 100 iterations for convergence
    kmeans<- kmeans(x=K, centers=i, iter.max=100)

    #Combine cluster number and cost together, write to df
    cost_df<- rbind(cost_df, cbind(i, kmeans$tot.withinss))

 }

我原来的Document-Term矩阵是590个文档x 8962术语并在DTM上运行上面的代码并没有给我带来悬而未决的问题。但是,由于其大小,我确实遇到了关键字 - 关键字矩阵。 关于如何克服这一点的任何建议都会有所帮助。

2 个答案:

答案 0 :(得分:0)

k-means需要坐标。因为它需要能够计算意味着(这就是为什么它被称为k-means)。

那里有一种相似性矩阵。请改为选择其他聚类算法。

答案 1 :(得分:0)

你的矩阵很大但非常稀疏。尝试使用稀疏矩阵。