假设我有10,000条测量误差较小的记录,以及10,000条高误差记录,其中高误差记录的目标值测量误差是2倍。我想对低误差测量给予更高的权重,并意识到我可以对数据进行重新采样,但这具有增加时间和空间的缺点。
让我们在sklearn中考虑RandomForestRegressor
或GradientBoostingRegressor
的这个问题。每个sample_weight
和fit
方法均可使用score
。 sample_weight
可以用来说明记录中不同程度的置信度吗?或者,有没有比重新采样更好的方法来表达训练数据的每个记录的相对置信度? sample_weight如何响应我拥有的两组记录中预期错误的比例?