我正在探索用于对我的测试数据执行聚类分析的编程环境。为了进行测试,我使用的是单列数据集,其中散点图和直方图是根据值索引绘制的。
从数据我觉得值可以划分为7个集群。当我使用没有cluster参数的kmeans
函数为7时,我得到以下结果。
Within cluster sum of squares by cluster:
[1] 492.480 2979.013 1903.396 18682.262 1430.533 754221.504
(between_SS / total_SS = 98.3 %)
现在我的疑问是如何存储这个结果(不一定是r),这样当我得到一个新的数据集 时,我应该能够比较i / p已存储的群集结果的数据集 。我应该能够将i / p数据集值划分为已知的集群。
答案 0 :(得分:1)
检查help(kmeans)
的值部分。中心会告诉你中心的中心位置。对于传入数据,计算它最接近的中心。例如:
data(mtcars)
mt.k <- kmeans(mtcars, centers = 4)
mt.k$centers
答案 1 :(得分:1)
如何处理kmeans
对象并不是很明显。最简单的方法是将其附加到您的数据框:
k = kmeans(data, centers = 7)
data = k$cluster
现在,您将群集编号作为data.frame中的列。保存但是你要保存data.frame。