标签: anomaly-detection
我在异常检测中遇到问题。我们知道距离是在不同实例之间测量的。现在,我的数据集包含分类数据。我有3个选择。首先,我删除了分类特征,但是,我认为分类特征中有一些有用的消息。其次,我使用sklearn的LabelEncoder将分类数据转换为数值,但是,我认为该转换不能与距离度量相对应。第三,我使用sklearn的OneHotEncoder处理分类特征,但是,我认为特征的需求增加并且会影响聚类。