当一个/多个要素值超出范围时,是否可以丢弃实例?

时间:2013-10-15 15:01:59

标签: machine-learning svm libsvm

我在blod-cells图像中构建抗体识别器。它基于libsvm。在识别属于受训类的一个实例时,原型很有效。 但是,当我给任何图像甚至不包含blod-cells(例如显微镜具有不良的偏移/焦点)时,它仍然建议模型已知的类之一。

我首先考虑实施课程" Unknown"但是我很担心用所有噪声图像训练它会使模型性能变差。

所以我的想法是检查,如果要识别的实例的一个/多个特征超出了值范围并丢弃它。

这是一个好方法吗? 如果是,应如何选择截止值(例如,在标准偏差方面)?

非常感谢!

1 个答案:

答案 0 :(得分:1)

在“可能的非类样本”问题中,最明显的解决方案似乎是以两种方式之一创建一类SVM(离群值检测算法):

  • 训练两个一类SVM(每个班级)并丢弃两个模型标记为“异常值”的样本
  • 在整个数据集(两个类的实例)上训练一个一类SVM并丢弃标记为异常值的数据

只要有一个obvios阈值,建议的“超出范围检查”的方法是好的 - 因为你在这里问什么是最好的选择 - 这意味着不是一个好方法。如果你不能(作为专家)自己弄清楚,看起来更好,更安全的选择训练异常检测方法,如前所述,这将实际做同样的事情,但以自动方式(因为它会找到规则在没有任何“坏图像”训练的情况下丢弃“不良数据”。)