当您混合使用分类数据(顺序分类特征以及一个热编码特征)时,如何进行聚类?

时间:2020-01-11 05:00:49

标签: cluster-analysis scaling categorical-data

我必须在仅具有分类变量的数据集中形成聚类。一些类别变量本质上是序数性的(例如教育程度,并且条目为1,2,3,而其他变量只是一个热门编码特征,例如is_loan,其中条目为0或1s)。我需要以下方面的帮助:

  • 在这种情况下缩放数据集的最佳方法是什么。我假设zscore标量将无法使用,因为它不会为所有功能提供通用比例。另外,我使用了MinMax标量,但在这种情况下kmeans弯头图不一致。我应该使用列规范化(使列成为单位规范)吗?
  • 在这方面理想的聚类算法应该是什么?

我是数据科学领域的新手,并且很难找到解决这些问题的方法。

0 个答案:

没有答案