我正在建立一个预测模型,在该模型上我可以预测客户是否会再次订阅。我已经有了数据集,问题是它不平衡(“否”比“是”更多)。我相信我的模型是有偏见的,但是当我检查训练集和测试集的准确性并做出预测时,准确性确实非常接近(训练集为0.8879,测试集为0.8868)。我感到困惑的原因是,如果我的模型有偏见,为什么我的训练和测试集的准确性接近?还是我的模型没有偏见?
答案 0 :(得分:0)
快速响应:是的,您的模型很有可能将所有内容预测为多数阶层。
让我们以一种更简单的方式来思考它。您在培训过程中有一个优化器,他试图使准确性最大化(使分类错误最小化)。假设您有1000个图像的训练集,并且该数据集中只有10只老虎,并且您打算学习一个分类器来区分老虎和非老虎。
优化器很可能要做的是预测每个图像的非老虎。为什么?因为它是一个简单得多的模型,并且更容易实现(在更简单的空间中更容易实现),并且准确率高达99%!
我建议您阅读有关imbalanced data
问题的更多信息(这似乎是开始https://machinelearningmastery.com/what-is-imbalanced-classification/的一个很好的选择)根据您要解决的问题,您可以尝试{{1} }或down-sampling
或更高级的解决方案,例如使用F1或AUC和/或进行排名而非分类来更改损失函数和指标。