应用错误收集

样本权重在分类模型中如何工作？

时间：2018-08-20 05:23:40

标签： machine-learning scikit-learn classification weighted

为每个样本提供权重是什么意思分类？ Logistic回归或SVM等分类算法如何使用权重来强调某些示例而不是其他示例？我希望深入研究这些算法如何利用样本权重。

如果查看sklearn documentation for logistic regression，您会发现fit函数具有可选的sample_weight参数，该参数定义为分配给各个样本的权重数组。

2 个答案:

答案 0 :(得分：3)

此选项用于不平衡数据集。让我们举个例子：我有很多数据，有些只是噪音。但是其他对我来说确实很重要，我希望我的算法比其他要点考虑得多。因此，我为它分配了权重，以确保将其正确处理。

它改变了损失的计算方式。误差（残差）将乘以该点的权重，因此目标函数的最小值将发生偏移。我希望它足够清楚。我不知道您是否熟悉其背后的数学原理，因此为您提供一个简短的介绍，以确保您的理解（如果不需要，请道歉） https://perso.telecom-paristech.fr/rgower/pdf/M2_statistique_optimisation/Intro-ML-expanded.pdf

答案 1 :(得分：0)

在这里看到一个很好的解释：https://www.kdnuggets.com/2019/11/machine-learning-what-why-how-weighting.html .