我正在尝试仅使用分类变量运行聚类。由于Kmeans仅适用于数值数据,是否有可用的聚类技术?
我有30个变量,例如邮政编码,年龄段,爱好,首选渠道,婚姻状况,信用风险(低,中,高),受教育程度等。如果我将这些变量分别转换为虚拟变量并运行kmeans,我将拥有90列(30 * 3-假设每个变量有4个因子)。这是正确的吗?
答案 0 :(得分:3)
Overlap-based similarity measures (k-modes), Context-based similarity measures and many more listed in the paper Categorical Data Clustering will be a good start. Since you already have experience and knowledge of k-means than k-modes will be easy to start with.
答案 1 :(得分:0)
或者,您可以混合使用多项式分布。
可以通过信息标准(例如BIC,ICL ...)选择集群的数量。
如果可以使用R,请使用实现此方法的R包VarSelLCM。