我有一个作家识别系统,可以针对每个训练模型给出测试样本的NLL(负最小似然)分数。例如,如果有13个模型要比较样本和NLL输出,则会看起来像这样。
15885.1881156907 17948.1931699086 17205.1548161452 16846.8936368077 20798.8048757930 18153.8179076007 18972.6746781821 17398.9047592641 19292.8326540969 22559.3178790489 17315.0994094185 19471.9518308519 18867.2297851016
其中每列代表针对每个模型的该样本的分数。第1列给出了模型1的分数,依此类推。
此测试样本由模型1编写。因此第一列应具有正确预测的最小值。
此处提供的输出给出了所需的预测,因为第1列的值最小。
当我提交结果时,我被问到对分数或预测值有多自信?我被要求提供每个分数的置信水平。
我在此之后做了一些阅读并发现了95%置信区间的一些帖子,这些帖子在我的谷歌查询中显示为每个结果,但它似乎不是我需要的。
我需要这个的原因是对于测试样本,我有2个模型的分数。然后使用置信水平,我应该知道要拿起哪个分数。
例如,对于相同的测试样本,来自另一个模型的分数是:
124494.535128967 129586.451168849 126269.733526396 129579.895935672 128582.387405272 125984.657455834 127486.755531507 125162.136816278 129790.811437270 135902.112799503 126599.346536290 136223.382395325 126182.202727967
两者都正确预测,因为在两种情况下,第1列中的得分最小。但我又如何找到得分的置信水平?
感谢此处的任何指导。
答案 0 :(得分:1)
据我所知,你不能只评估一个值的置信水平 假设您可以将结果存储在矩阵中,其中每列对应一个模型,每行对应一个示例(或观察)。您可以使用该模型的所有预测结果(即您可以根据以下过程评估矩阵中任何列的置信区间)来评估每个模型的置信度:
希望这是你正在寻找的。 p>