应用错误收集

时间：2016-01-10 13:54:52

标签： machine-learning classification cluster-analysis dimensionality-reduction

请你帮我理解一下，因为我不确定我是否正确使用它。

假设我有一个人的数据集，有100个功能，各种特征，如身高，体重，年龄等。我想分类是正常还是异常。异常我的意思是，如果一个20岁的男性是170厘米和150公斤，以确定它是异常的。

我应该使用自组织映射来减少维度（这100个特征），然后使用K-means将它们分类为正常和异常？这是正确的方法吗？或者我只能使用K-NN将它们分类为正常 - 异常而没有任何降维？

K-NN可以使用多少功能？到目前为止，我发现的所有例子都只使用了两个。

如果以后我想找到为什么这个人已经纳入异常课程，我怎么能发现这是因为这两个特征，他的体重根据他的身高？

答案 0 :(得分：1)

如果您没有每个样本的标签 - 它是无监督的学习任务，可能是异常检测/异常检测。

我认为在您的情况下，您只需要将多元高斯分布拟合到数据集中，并假设如果p（x）（其中p拟合正态分布）小于某个阈值，则新样本不正常。另请看这里：http://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection