我是生物信息学项目,我有大量的培训数据集。它由大约18,000个正面和1000个负面实例组成。如果我将此数据用作训练集,那么正实例将完全支配负实例。因此,在测试数据分类过程中,我的负面数据也被错误分类为正数。
是否有任何简单的方法可以使这些正面和负面数据的平衡设置能够解决这个问题?
答案 0 :(得分:2)
非常广泛的问题,但一般来说,您可以大致区分以下方法来处理过度拟合:
regularization(特殊类型取决于您的近似值/分类器)
early stopping(基于验证集)
cross-validation(选择最有可能推广的模型)
在训练不平衡的情况下,据报道,一个与所有分类器的集合产生了良好的结果(例如here)。您也可以使用抽样技术(可以通过谷歌找到许多不同的命题)。
答案 1 :(得分:0)
您可以尝试“类权重”方法,其中较小的类获得更多权重,从而花费更多的成本来对负标记类进行错误分类。
此外,如果您使用的是逻辑分类器,您可以调整正/负预测的阈值,并观察precision and recall的变化,然后使用F-measure进行权衡。交叉验证数据。
但我会说,使用非常大的训练集会使模型不可能过度拟合训练数据。