应用错误收集

根据某些分数标准S，有N个候选对象要从中选择M个（M << N）。

我执行以下操作：我自举为N个候选人创建L个得分实例，然后取L个实例的平均值作为N个候选人的平均得分。最后选择其中的前M个作为最终选择。

我看到的问题是样本外性能不如样本数据好。我的推测是因为“右尾选择”问题。让我解释一下-在样本中我给出一些分数，然后选择前N个，这会产生右尾偏见，这在样本中是不正确的。

是否有贝叶斯方法进行查看？解决此问题的任何链接将不胜感激！另外，如果不清楚，请随时提出解释。