我们用于建模的样本集是从一个大的整个数据集中采样的。通常当我们对记分卡模型使用逻辑回归时,我们会考虑样本集和整个数据集之间的好样本与坏样本的比率变化为 factor 或重量。
如果我们考虑将模型应用于整个数据集,我认为当我们使用lightGBM时,该因素将影响树的分割。就像我们有一个名为" age"的功能。如果我们不考虑权重,它应该拆分为32,但权重告诉整个数据集或人口,更多样本低于25,分割应该是28。
我在lightGBM中找到了两种可能的方法:将 is_unbalance 设置为False并将 scale_pos_weight 设置为 weight ,或设置 is_unbalance < / em>为True并将 weight 作为数组传递给参数&#34; sample_weight&#34;在适应功能。
我不知道哪一个是有效的,可以达到我们的目标,即在lightGBM中考虑样品重量