样本权重在分类模型中如何工作?

时间:2018-08-20 05:23:40

标签: machine-learning scikit-learn classification weighted

为每个样本提供权重是什么意思  分类? Logistic回归或SVM等分类算法如何使用权重来强调某些示例而不是其他示例?我希望深入研究这些算法如何利用样本权重。

如果查看sklearn documentation for logistic regression,您会发现fit函数具有可选的sample_weight参数,该参数定义为分配给各个样本的权重数组。

2 个答案:

答案 0 :(得分:3)

此选项用于不平衡数据集。让我们举个例子:我有很多数据,有些只是噪音。但是其他对我来说确实很重要,我希望我的算法比其他要点考虑得多。因此,我为它分配了权重,以确保将其正确处理。

它改变了损失的计算方式。误差(残差)将乘以该点的权重,因此目标函数的最小值将发生偏移。我希望它足够清楚。我不知道您是否熟悉其背后的数学原理,因此为您提供一个简短的介绍,以确保您的理解(如果不需要,请道歉) https://perso.telecom-paristech.fr/rgower/pdf/M2_statistique_optimisation/Intro-ML-expanded.pdf

答案 1 :(得分:0)