python - 使用混合变量进行聚类，分类变量具有大约10000个类别

我正在尝试使用聚类分析找到异常值。

数据大小：> 5000万条记录

总列数：50。 [39个分类，12个数字]

域名：医疗保健

问题：

1。在这种情况下，聚类是寻找异常值的正确方法吗？

2。在这种情况下，最好的特征工程[特征选择和降维]方法是什么？

3。是否建议通过将所有类别转换为数值来进行kmeans处理？如果是，则对此有任何想法和指示。

4。建议做K原型吗？如果是，那么它是否可靠/成熟到可以使用。并且对代码库的任何理论和指针都表示赞赏。

任何其他示例代码都会有所帮助

寻找解决这个问题的想法和方向，使用python进行编码