我有一个非常不平衡和偏斜的列车和测试数据集,其中包含15个异常/故障检测问题的功能。训练集有大约60,000个实例,其中88个是“失败”,休息是“通过”事件。测试集有大约35,000个测试用例,其中只有46个“失败”而其余的都是“通过”。什么是良好的分类器和方法来检测“失败”事件?
我已经尝试了超大(“失败”实例)和尺寸不足(“通过”实例)训练以达到平衡数据集,但测试的整体分类准确率从未超过60%。请建议一个好的分类器和你可能知道的任何有用的技术。
答案 0 :(得分:1)
由于您的数据集高度偏差(约1/1000),使用异常检测技术可能有助于实现更高的准确性。