假设您正在尝试将机器学习用于分类任务,比如说,看看动物的照片,区分马匹和斑马。这项任务似乎属于现有技术水平。
但是如果你把一堆带标签的照片扔到像神经网络或支持向量机这样的东西上,那么在实践中发生的事情就是斑马比马匹更罕见,系统最终会学会说&# 39;永远是一匹马'因为这实际上是最小化其错误的方法。
可能存在的最小错误,但它也不是非常有用的结果。告诉系统的推荐方法是什么?我希望最好地猜测哪些照片是斑马,即使这会产生一些误报'?似乎没有很多关于这个问题的讨论。
答案 0 :(得分:1)
我通常使用不平衡类(或偏斜数据集)执行的操作之一就是生成更多数据。我认为这是最好的方法。您可以在现实世界中走出去并收集更多不平衡类的数据(例如,查找更多斑马图片)。您还可以通过简单地制作副本或使用变换复制(例如水平翻转)来生成更多数据。
您还可以选择一种分类器,该分类器使用备用评估(性能)指标而非常用的精度。查看精确/召回/ F1分数。
Andrew Ng的ML课程第6周讨论了这个话题:link
这是我在处理不平衡类时发现的另一个好网页:link
答案 1 :(得分:1)
对于这种类型的不平衡数据问题,学习与每个类相关联的模式是一种很好的方法,而不是简单地比较类 - 这可以通过无监督学习学习(例如使用自动编码器)来完成。有一篇好文章可在https://www.r-bloggers.com/autoencoders-and-anomaly-detection-with-machine-learning-in-fraud-analytics/amp/获得。另一个建议 - 在运行分类器之后,混淆矩阵可用于确定应追踪其他数据的位置(即许多斑马错误)