高度不平衡的故障检测数据集

时间:2015-10-08 22:14:27

标签: machine-learning

我有一个非常不平衡和偏斜的列车和测试数据集,其中包含15个异常/故障检测问题的功能。训练集有大约60,000个实例,其中88个是“失败”,休息是“通过”事件。测试集有大约35,000个测试用例,其中只有46个“失败”而其余的都是“通过”。什么是良好的分类器和方法来检测“失败”事件?

我已经尝试了超大(“失败”实例)和尺寸不足(“通过”实例)训练以达到平衡数据集,但测试的整体分类准确率从未超过60%。请建议一个好的分类器和你可能知道的任何有用的技术。

1 个答案:

答案 0 :(得分:1)

由于您的数据集高度偏差(约1/1000),使用异常检测技术可能有助于实现更高的准确性。