我的客户群具有连续,分类,二元和序数的不同属性。 如何知道我们无法对这些不同类型的属性应用相同的距离度量,我如何对它们进行聚类? 提前谢谢
答案 0 :(得分:1)
如前所述,daisy package是一个可以根据数据类型自动选择最佳距离度量的选项。但我建议采用以下方法并请求专家来请求。
而不是自动选择识别和删除一些相关变量,如(某些例子)
Pearson相关:用于连续变量
卡方检验:用于分类变量
分类与数值:Anova测试的一种方式等。
考虑有用变量的子集,可以考虑对分类变量进行单热编码,也可以将序数转换为连续(或分类和单热编码)。使用不同的距离度量(如欧几里德,曼哈顿等)进行测试以评估结果。您将以这种方式更清晰地了解整个群集过程。