我有一个关于在Stata中使用cluster kmeans
命令的问题。我使用的是该软件的第13版。
我认识到要在使用cluster
命令时获得一致的分组,必须在命令之前设置种子。我的问题是,当我设置不同的种子并运行相同的cluster
命令时,产生的分组在组成上彼此完全不同?我通过在另一个上运行一个交叉表来收集这个,例如tab _clus_1 _clus_2
,其中每个聚类是在不同的集合种子之后生成的,并且看到许多情况分组不同。
由于我对cluster
命令正在使用的算法知之甚少,这使我担心正在创建的分组变量的健壮性。我正在使用616个观测数据集,并为群集命令提供41个变量,其中许多是假人(0/1),或者介于0和1之间,所以我想知道这种缺乏变化是否有助于每次我将种子设置为不同的数字时,会生成非常不同的分组。
答案 0 :(得分:0)
如果您正在聚类的变量都是二元或因子变量,您可能会发现使用潜在类聚类的更稳定的解决方案。
Stata可以通过(1)Sophia Rabe-Hesketh的gllamm
程序进行潜类分析,并在Stata内从SSC获得,或者(2)http://methodology.psu.edu/downloads/lcastata处的Stata的LCAplugin,这是仅适用于Windows平台。
尽管由于最大矩阵大小限制(即800),LCAplugin不适用于Stata / IC,但它应该适用于您的问题,因为如果您set matsize 800
,您只有616个案例和41个变量。如果你有更高的Stata风味(例如,SE或MP),那么LCAplugin不应该受到那些最大矩阵大小限制的困扰。