应用错误收集

在基于训练集训练分类器时，如果某些训练样本比其他样本更有价值（更有价值），我该怎么办？

时间：2016-09-20 23:01:06

标签： machine-learning artificial-intelligence svm data-science

我正在尝试基于给定的训练集训练分类器（比如每班100个样本的2级问题）。如何训练我的分类器，使训练集中的一些样本（比如每个类的前20个样本）比其他样本更有价值？（由于某些原因，这些样本与测试集更相似，因此在训练分类器时应将它们视为更重要）如果我只是复制那些样品几次就可以了吗？

我不知道它是否重要，但我的分类器包括一个特征选择步骤（一种基于过滤器的方法，称为基于快速相关的过滤器）和一个分类步骤（线性SVM）。此外，我的测试集是一个完全不同的集合，我根本不能用于任何训练步骤。

1 个答案:

答案 0 :(得分：0)

如果我只是复制那些样品几次可以吗？

这取决于您使用的方法。对于某些人来说 - 它很好，就像你所指的SVM一样 - 它对样本具有附加损失函数，并不关心重复。然而这不是你应该如何处理SVM的问题，因为它直接支持加权样本，这就是你应该做的 - 将重量附加到样本。根据所使用的库/语言，它可能是否可用，但这是正确的方法。例如，在libsvm中，您只需将sample_weight传递到fit来电，例如here。