Question

我正在使用R和SAS进行聚类分析，我的结果确实不同。

我知道结果是随机的，所以有点不同是正常的，但差别很大。

我使用SAS着名的CARS数据集进行测试。

使用R，我这样做：

kmeans(CARS[,c(8,10)],5)

结果:(在_SS / total_SS = 93.2％之间）

使用SAS，我这样做：

proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize 
Horsepower ; run;

结果：预期超出预期的R-Squared = 0.96079

差异较小，但仍有差异。我进行了几次测试，结果仍然相同。

这种差异来自哪里？

Answer 1

从文档中可以肯定：

他们依赖于不同的算法。 SAS文档模糊地描述了“最近质心分类”的方法。我对此没有任何实质性的了解，但也许可以查看其他集群函数（如hclust）或其他软件包以找到可比的内容。