我从R中的文档 - 术语矩阵中导出一个术语 - 术语共生矩阵K.我有兴趣对关键词 - 关键词矩阵K进行K均值聚类分析。 K是8962条x 8962条款。
我将K传递给kmeans函数,如下所示:
for(i in 1:25){
#Run kmeans for each level of i, allowing up to 100 iterations for convergence
kmeans<- kmeans(x=K, centers=i, iter.max=100)
#Combine cluster number and cost together, write to df
cost_df<- rbind(cost_df, cbind(i, kmeans$tot.withinss))
}
我原来的Document-Term矩阵是590个文档x 8962术语并在DTM上运行上面的代码并没有给我带来悬而未决的问题。但是,由于其大小,我确实遇到了关键字 - 关键字矩阵。 关于如何克服这一点的任何建议都会有所帮助。
答案 0 :(得分:0)
k-means需要坐标。因为它需要能够计算意味着(这就是为什么它被称为k-means)。
那里有一种相似性矩阵。请改为选择其他聚类算法。
答案 1 :(得分:0)
你的矩阵很大但非常稀疏。尝试使用稀疏矩阵。