机器学习:按重要性加权训练点数

时间:2017-10-06 17:36:49

标签: machine-learning scikit-learn training-data

我有一组标记的训练数据,我正在训练ML算法来预测标签。但是,我的一些数据点比其他数据更重要。或者,类似地,这些点的不确定性比其他点少。

是否有一种通用方法可以将重要性代表权重包含在模型中的每个训练点中?是否有一些特定的模型能够做到这一点,而其他的不是?

我可以想象重复这些点(并且可能会稍微涂抹它们的特征以避免精确重复),或者对不太重要的点进行下采样。是否有更优雅的方法来解决这个问题?

1 个答案:

答案 0 :(得分:1)

Scikit-learn允许您在拟合模型时传递一组样本权重。 Vowpal Wabbit(在线ML库)也有此选项。