序数变量聚类的适当方法

时间:2018-07-03 13:59:23

标签: cluster-analysis spss ordinal

我正在阅读所有(或大多数)以前提出的问题,但找不到解决我问题的答案...
我有13个按序量度的变量(您代表知识转移渠道),我希望对其进行聚类(HCA),以进行以下二进制logistic回归分析(由于样本量N = 208,不可能包含所有13个变量)。由于规模级别,因素分析似乎不合适。我正在使用SPSS(但也尝试过R)。

问题:
1:我对计数数据使用Chi-Squared度量代替欧氏距离(平方)是否正确?
2.如何证明选择方法的合理性?我尝试了单项,完整,病房和平均,但均给出了不同的结果,我找不到任何依据来做出决定。

非常感谢!

1 个答案:

答案 0 :(得分:0)

答案1:由于变量为有序尺度,因此卡方检验是一种合适的度量检验。因为,“卡方检验用于分析分类数据。这意味着该数据已被计数并分为几类。它不适用于参数或连续数据(例如以英寸为单位的高度)。” Reference

同样,序数标度数据本质上是计数或频率数据,您可以使用常规参数统计:均值,标准差等,或像ANOVAMann-Whitney U test这样的非参数测试来比较两组或{ {1}}比较三个或更多组。

答案2:在聚类问题中,距离方法的选择仅取决于变量的类型。我建议您阅读这些详细的帖子123