应用错误收集

当一个/多个要素值超出范围时，是否可以丢弃实例？

时间：2013-10-15 15:01:59

标签： machine-learning svm libsvm

我在blod-cells图像中构建抗体识别器。它基于libsvm。在识别属于受训类的一个实例时，原型很有效。但是，当我给任何图像甚至不包含blod-cells（例如显微镜具有不良的偏移/焦点）时，它仍然建议模型已知的类之一。

我首先考虑实施课程＆＃34; Unknown＆＃34;但是我很担心用所有噪声图像训练它会使模型性能变差。

所以我的想法是检查，如果要识别的实例的一个/多个特征超出了值范围并丢弃它。

这是一个好方法吗？如果是，应如何选择截止值（例如，在标准偏差方面）？

非常感谢！

1 个答案:

答案 0 :(得分：1)

在“可能的非类样本”问题中，最明显的解决方案似乎是以两种方式之一创建一类SVM（离群值检测算法）：

训练两个一类SVM（每个班级）并丢弃两个模型标记为“异常值”的样本
在整个数据集（两个类的实例）上训练一个一类SVM并丢弃标记为异常值的数据

只要有一个obvios阈值，建议的“超出范围检查”的方法是好的 - 因为你在这里问什么是最好的选择 - 这意味着不是一个好方法。如果你不能（作为专家）自己弄清楚，看起来更好，更安全的选择训练异常检测方法，如前所述，这将实际做同样的事情，但以自动方式（因为它会找到规则在没有任何“坏图像”训练的情况下丢弃“不良数据”。）