如何使用分类变量运行聚类

时间:2018-09-19 08:16:04

标签: python python-3.x machine-learning cluster-analysis data-science

我正在尝试仅使用分类变量运行聚类。由于Kmeans仅适用于数值数据,是否有可用的聚类技术?

我有30个变量,例如邮政编码,年龄段,爱好,首选渠道,婚姻状况,信用风险(低,中,高),受教育程度等。如果我将这些变量分别转换为虚拟变量并运行kmeans,我将拥有90列(30 * 3-假设每个变量有4个因子)。这是正确的吗?

2 个答案:

答案 0 :(得分:3)

Overlap-based similarity measures (k-modes), Context-based similarity measures and many more listed in the paper Categorical Data Clustering will be a good start. Since you already have experience and knowledge of k-means than k-modes will be easy to start with.

答案 1 :(得分:0)

或者,您可以混合使用多项式分布。

可以通过信息标准(例如BIC,ICL ...)选择集群的数量。

如果可以使用R,请使用实现此方法的R包VarSelLCM。