我正在尝试建立一个CNN模型,该模型将时间序列数据分为三类:A,B,C。 C类是最难检测到的,因为它某种程度上接近A和B,但是A和B不同。 我有大约60,000个样本的平衡数据集。该模型对A和B的分类效果很好,每个类别的F1分数为75%,80%,但是对于第三类C的F1分数为55%,效果不佳。
如果我想增强C的结果,是否为C添加比其他两个类(A和B)更多的训练样本,而不是平衡数据集是个好主意?如何使模型对C更加重视,而又不过度适合C?
答案 0 :(得分:1)
网络过度拟合不会改善测试数据的分类。比较安全的方法是改善每个班级的代表人数。
不平衡的阶层会使网络偏向多数阶层。您可以尝试sub-sampling数据来抵消不平衡。
答案 1 :(得分:0)
这是一个非常笼统的问题,所以我想我会给出一个普遍的答案:您的选择是尝试找到可以在分类中使用的更好的功能,或者过度适合C。无论是否为“好的主意”取决于您将其用于什么目的以及您认为可接受的错误概率。
在任何分类活动中,无论是使用CNN还是其他方法,都将始终在取舍,特别是如果两个或多个数据集具有任何程度的重叠。