R和SAS:聚类分析的结果不同

时间:2013-06-05 08:53:28

标签: r sas cluster-analysis

我正在使用R和SAS进行聚类分析,我的结果确实不同。

我知道结果是随机的,所以有点不同是正常的,但差别很大。

我使用SAS着名的CARS数据集进行测试。

使用R,我这样做:

kmeans(CARS[,c(8,10)],5)

结果:(在_SS / total_SS = 93.2%之间)

使用SAS,我这样做:

proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize 
Horsepower ; run;

结果:预期超出预期的R-Squared = 0.96079

差异较小,但仍有差异。 我进行了几次测试,结果仍然相同。

这种差异来自哪里?

1 个答案:

答案 0 :(得分:2)

从文档中可以肯定:

他们依赖于不同的算法。 SAS文档模糊地描述了“最近质心分类”的方法。我对此没有任何实质性的了解,但也许可以查看其他集群函数(如hclust)或其他软件包以找到可比的内容。