Question

我从R中的文档 - 术语矩阵中导出一个术语 - 术语共生矩阵K.我有兴趣对关键词 - 关键词矩阵K进行K均值聚类分析。 K是8962条x 8962条款。

我将K传递给kmeans函数，如下所示：

for(i in 1:25){
    #Run kmeans for each level of i, allowing up to 100 iterations for convergence
    kmeans<- kmeans(x=K, centers=i, iter.max=100)

    #Combine cluster number and cost together, write to df
    cost_df<- rbind(cost_df, cbind(i, kmeans$tot.withinss))

 }

我原来的Document-Term矩阵是590个文档x 8962术语并在DTM上运行上面的代码并没有给我带来悬而未决的问题。但是，由于其大小，我确实遇到了关键字 - 关键字矩阵。关于如何克服这一点的任何建议都会有所帮助。

Answer 1

k-means需要坐标。因为它需要能够计算意味着（这就是为什么它被称为k-means）。

那里有一种相似性矩阵。请改为选择其他聚类算法。

Answer 2

你的矩阵很大但非常稀疏。尝试使用稀疏矩阵。

k-均值聚类在项 - 期共生矩阵上

2 个答案: