我正在尝试基于给定的训练集训练分类器(比如每班100个样本的2级问题)。如何训练我的分类器,使训练集中的一些样本(比如每个类的前20个样本)比其他样本更有价值? (由于某些原因,这些样本与测试集更相似,因此在训练分类器时应将它们视为更重要) 如果我只是复制那些样品几次就可以了吗?
我不知道它是否重要,但我的分类器包括一个特征选择步骤(一种基于过滤器的方法,称为基于快速相关的过滤器)和一个分类步骤(线性SVM)。此外,我的测试集是一个完全不同的集合,我根本不能用于任何训练步骤。
答案 0 :(得分:0)
如果我只是复制那些样品几次可以吗?
这取决于您使用的方法。对于某些人来说 - 它很好,就像你所指的SVM一样 - 它对样本具有附加损失函数,并不关心重复。 然而这不是你应该如何处理SVM的问题,因为它直接支持加权样本,这就是你应该做的 - 将重量附加到样本。根据所使用的库/语言,它可能是否可用,但这是正确的方法。例如,在libsvm中,您只需将sample_weight
传递到fit
来电,例如here。