我正在使用R和SAS进行聚类分析,我的结果确实不同。
我知道结果是随机的,所以有点不同是正常的,但差别很大。
我使用SAS着名的CARS数据集进行测试。
使用R,我这样做:
kmeans(CARS[,c(8,10)],5)
结果:(在_SS / total_SS = 93.2%之间)
使用SAS,我这样做:
proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize
Horsepower ; run;
结果:预期超出预期的R-Squared = 0.96079
差异较小,但仍有差异。 我进行了几次测试,结果仍然相同。
这种差异来自哪里?
答案 0 :(得分:2)
从文档中可以肯定:
他们依赖于不同的算法。 SAS文档模糊地描述了“最近质心分类”的方法。我对此没有任何实质性的了解,但也许可以查看其他集群函数(如hclust
)或其他软件包以找到可比的内容。