请你帮我理解一下,因为我不确定我是否正确使用它。
假设我有一个人的数据集,有100个功能,各种特征,如身高,体重,年龄等。我想分类是正常还是异常。异常我的意思是,如果一个20岁的男性是170厘米和150公斤,以确定它是异常的。
我应该使用自组织映射来减少维度(这100个特征),然后使用K-means将它们分类为正常和异常?这是正确的方法吗?或者我只能使用K-NN将它们分类为正常 - 异常而没有任何降维?
K-NN可以使用多少功能?到目前为止,我发现的所有例子都只使用了两个。
如果以后我想找到为什么这个人已经纳入异常课程,我怎么能发现这是因为这两个特征,他的体重根据他的身高?
答案 0 :(得分:1)
如果您没有每个样本的标签 - 它是无监督的学习任务,可能是异常检测/异常检测。
我认为在您的情况下,您只需要将多元高斯分布拟合到数据集中,并假设如果p(x)(其中p拟合正态分布)小于某个阈值,则新样本不正常。 另请看这里:http://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection