背景:我有多个数据矩阵,每个矩阵有2,000列和〜21,0000行。我正在执行K均值分析,然后生成群集数据的热图。我在R工作。
问题:我不只是通过预先选择K均值聚类数并通过反复试验来选择哪个图看起来“最佳”,而是尝试使用一种工具来执行类似肘部或轮廓法的操作来确定最佳集群号。我尝试了 nclust (在实现nclust之前,我已经使用了 amap 包来计算距离矩阵)。我的问题是,大约5个小时后,它无法完成运行。我没有收到任何错误或警告。我正在将这些数据转移到服务器中;最终我还是失去了联系,所以除了实际考虑之外,我等不了几个小时。
问题:是否存在一种实用的解决方案或工具,可以处理大型矩阵来确定k均值分析的最佳聚类#?