使用混合变量进行聚类,分类变量具有大约10000个类别

时间:2019-02-28 19:34:49

标签: python machine-learning cluster-analysis categorical-data outliers

我正在尝试使用聚类分析找到异常值。

数据大小:> 5000万条记录

总列数:50。 [39个分类,12个数字]

域名:医疗保健

问题:

  • 大约5-6个分类变量具有10,000多个可能的值
  • 大约12-14有可能的类别

1。      在这种情况下,聚类是寻找异常值的正确方法吗?

2。       在这种情况下,最好的特征工程[特征选择和降维]方法是什么?

3。       是否建议通过将所有类别转换为数值来进行kmeans处理?如果是,则对此有任何想法和指示。

4。 建议做K原型吗?如果是,那么它是否可靠/成熟到可以使用。并且对代码库的任何理论和指针都表示赞赏。

K-prototypes:https://github.com/nicodv/kmodes/blob/master/kmodes/kprototypes.py

任何其他示例代码都会有所帮助

寻找解决这个问题的想法和方向,使用python进行编码

0 个答案:

没有答案