我正在尝试使用聚类分析找到异常值。
数据大小:> 5000万条记录
总列数:50。 [39个分类,12个数字]
域名:医疗保健
问题:
1。 在这种情况下,聚类是寻找异常值的正确方法吗?
2。 在这种情况下,最好的特征工程[特征选择和降维]方法是什么?
3。 是否建议通过将所有类别转换为数值来进行kmeans处理?如果是,则对此有任何想法和指示。
4。 建议做K原型吗?如果是,那么它是否可靠/成熟到可以使用。并且对代码库的任何理论和指针都表示赞赏。
K-prototypes:https://github.com/nicodv/kmodes/blob/master/kmodes/kprototypes.py
任何其他示例代码都会有所帮助
寻找解决这个问题的想法和方向,使用python进行编码