一类主要的分类问题的诀窍?

时间:2015-01-19 18:45:31

标签: machine-learning classification detection

想象一下,你有两个A和B类,你需要区分它们。通常我只是训练数据上的正常分类器(例如逻辑回归,反向网络)并完成它。但我注意到A比B更频繁地发生几个数量级!是应该按原样呈现分类器的数据分布,还是改变它以使类同等频繁?或者更激烈的变化会有所帮助吗?我想这个案子之前已经进行了很多研究(例如人脸检测),但我对这些技术与常规旧分类的差异有点不熟悉。

1 个答案:

答案 0 :(得分:1)

有许多方法可以处理所谓的"不平衡数据集",例如过采样,定制成本矩阵和类先验。

我通常更喜欢将问题保持原样,但请务必按​​类别研究性能。例如,如果分类器对具有两个类的数据集执行20%的错误,其中一个仅占观察的25%,则需要分类错误来判断它是在做一个好的整体工作还是忽略了次要类。

可以在Data Mining and Knowledge Discovery Handbook第40章Data mining for imbalanced datasets: An overview中找到一个好的介绍。 (注意,我认为使用后一个链接获得的pdf是公开的,但很难从大学网络内部分析我的工作。)