应用错误收集

时间：2020-03-06 17:51:06

标签： machine-learning classification training-data

我的验证集具有很高的分类准确率。但是测试数据不足，因为数据不平衡。请在这里建议。

在验证集上获得高准确度但在测试集上获得低准确度的原因可能是什么？

答案 0 :(得分：0)

听起来您在测试集上的拟合度过高，但是无法确定地说，因为您的问题仅能描述您在做什么。你有什么问题？多标签，多类别？还是更简单的东西？您如何衡量准确性？几节课？您使用哪个框架？

仔细查看您的数据及其分布。如果它们不平衡，请在训练前平衡它们。如果分布为1:99，则没有必要在两个类别上进行网络的原始训练。您必须通过重新平衡数据集（例如，对代表性不足的类进行过度采样）或适当地修改损失函数来解决此问题。

假设问题不是平衡的，而是overfitting，请使用data augmentation和regularization。可尝试做的一些事情是减少模型容量（减少参数）并添加诸如dropout和/或weight decay之类的东西。