为每个样本提供权重是什么意思 分类? Logistic回归或SVM等分类算法如何使用权重来强调某些示例而不是其他示例?我希望深入研究这些算法如何利用样本权重。
如果查看sklearn documentation for logistic regression,您会发现fit函数具有可选的sample_weight参数,该参数定义为分配给各个样本的权重数组。
答案 0 :(得分:3)
此选项用于不平衡数据集。让我们举个例子:我有很多数据,有些只是噪音。但是其他对我来说确实很重要,我希望我的算法比其他要点考虑得多。因此,我为它分配了权重,以确保将其正确处理。
它改变了损失的计算方式。误差(残差)将乘以该点的权重,因此目标函数的最小值将发生偏移。我希望它足够清楚。我不知道您是否熟悉其背后的数学原理,因此为您提供一个简短的介绍,以确保您的理解(如果不需要,请道歉) https://perso.telecom-paristech.fr/rgower/pdf/M2_statistique_optimisation/Intro-ML-expanded.pdf
答案 1 :(得分:0)