应用错误收集

如何使用分类变量运行聚类

时间：2018-09-19 08:16:04

标签： python python-3.x machine-learning cluster-analysis data-science

我正在尝试仅使用分类变量运行聚类。由于Kmeans仅适用于数值数据，是否有可用的聚类技术？

我有30个变量，例如邮政编码，年龄段，爱好，首选渠道，婚姻状况，信用风险（低，中，高），受教育程度等。如果我将这些变量分别转换为虚拟变量并运行kmeans，我将拥有90列（30 * 3-假设每个变量有4个因子）。这是正确的吗？

2 个答案:

答案 0 :(得分：3)

Overlap-based similarity measures (k-modes), Context-based similarity measures and many more listed in the paper Categorical Data Clustering will be a good start. Since you already have experience and knowledge of k-means than k-modes will be easy to start with.

答案 1 :(得分：0)

或者，您可以混合使用多项式分布。

可以通过信息标准（例如BIC，ICL ...）选择集群的数量。

如果可以使用R，请使用实现此方法的R包VarSelLCM。