应用错误收集

高度不平衡的故障检测数据集

时间：2015-10-08 22:14:27

标签： machine-learning

我有一个非常不平衡和偏斜的列车和测试数据集，其中包含15个异常/故障检测问题的功能。训练集有大约60,000个实例，其中88个是“失败”，休息是“通过”事件。测试集有大约35,000个测试用例，其中只有46个“失败”而其余的都是“通过”。什么是良好的分类器和方法来检测“失败”事件？

我已经尝试了超大（“失败”实例）和尺寸不足（“通过”实例）训练以达到平衡数据集，但测试的整体分类准确率从未超过60％。请建议一个好的分类器和你可能知道的任何有用的技术。

1 个答案:

答案 0 :(得分：1)

由于您的数据集高度偏差（约1/1000），使用异常检测技术可能有助于实现更高的准确性。