应用错误收集

时间：2018-08-24 02:54:55

标签： machine-learning neural-network conv-neural-network

我正在尝试建立一个CNN模型，该模型将时间序列数据分为三类：A，B，C。 C类是最难检测到的，因为它某种程度上接近A和B，但是A和B不同。我有大约60,000个样本的平衡数据集。该模型对A和B的分类效果很好，每个类别的F1分数为75％，80％，但是对于第三类C的F1分数为55％，效果不佳。

如果我想增强C的结果，是否为C添加比其他两个类（A和B）更多的训练样本，而不是平衡数据集是个好主意？如何使模型对C更加重视，而又不过度适合C？

答案 0 :(得分：1)

网络过度拟合不会改善测试数据的分类。比较安全的方法是改善每个班级的代表人数。

不平衡的阶层会使网络偏向多数阶层。您可以尝试sub-sampling数据来抵消不平衡。

答案 1 :(得分：0)

这是一个非常笼统的问题，所以我想我会给出一个普遍的答案：您的选择是尝试找到可以在分类中使用的更好的功能，或者过度适合C。无论是否为“好的主意”取决于您将其用于什么目的以及您认为可接受的错误概率。

在任何分类活动中，无论是使用CNN还是其他方法，都将始终在取舍，特别是如果两个或多个数据集具有任何程度的重叠。