应用错误收集

时间：2018-05-18 07:51:00

标签： r machine-learning data-science data-analysis

我的客户群具有连续，分类，二元和序数的不同属性。如何知道我们无法对这些不同类型的属性应用相同的距离度量，我如何对它们进行聚类？提前谢谢

答案 0 :(得分：1)

如前所述，daisy package是一个可以根据数据类型自动选择最佳距离度量的选项。但我建议采用以下方法并请求专家来请求。

而不是自动选择识别和删除一些相关变量，如（某些例子）
Pearson相关：用于连续变量
卡方检验：用于分类变量分类与数值：Anova测试的一种方式等。

考虑有用变量的子集，可以考虑对分类变量进行单热编码，也可以将序数转换为连续（或分类和单热编码）。使用不同的距离度量（如欧几里德，曼哈顿等）进行测试以评估结果。您将以这种方式更清晰地了解整个群集过程。