罕见事件的ML分类问题总是可以预测0

时间:2018-10-03 20:50:20

标签: machine-learning classification automl

我有一个ML问题。我有一个机器学习分类任务,其中的分类是-1、0或1。实际上,绝大多数时候正确的分类是0,大约1%的时间,答案是-1或1。

训练时(我使用的是auto_ml,但我认为这是一个普遍的问题),我发现我的模型通过每次仅预测0来决定其可以获得99%的准确性。

这是已知现象吗?除了提出更多分类之外,我还能做些什么来解决此问题?也许是将0分成不同类的东西。

任何建议或下一步要读的内容的指针,都将受到赞赏。

谢谢。

2 个答案:

答案 0 :(得分:1)

您应该更深入地研究数据集。似乎您的数据集不平衡。可能的解决方案:

  • 尝试平衡数据集-添加更多带有标签1和-1的数据或减少带有0标签的行数;
  • 如果无法使数据集平衡,请尝试更改方法。您可以假设标签1和-1是异常值,并尝试解决查找异常值的问题。这里是some examples如何使用库scikit-learn处理异常值;

答案 1 :(得分:0)

是的,ML可能很懒;-)

您可以尝试将更多的罕见情况纳入训练集中。但是,您使用“事件”一词使我想知道您是否在进行某种时间序列分析-这是某种经常性网络吗?如果是这样,那么对更多的罕见事件进行培训可能是不现实的。