我计划使用精确回忆图(PR图)来比较模型。请参阅下面的附图(部分截图,对不起!)。显然,我有真正的积极因素,真实的消极因素,误报和漏报,我需要为每个模型提供单个汇总数量。以下是我的问题:
区域PR曲线下面(AUC)是第一个数量,但我不知道如何在R中计算它。我不想使用像ROCR
这样的任何包,因为所有的代码由我自己编写,我希望使用可用数量编写自己的代码。似乎有很多方法 - 我希望知道哪一个是最可实现的。
另一个数量是F度量:结合精确度和召回率的度量是精度和召回的调和平均值,传统的F度量或平衡F值。但是,我很好奇这是否比#1中的AUC好,或者他们描述的是不同的东西?此外,由于我有一堆Recall和Precision值,在这种情况下如何计算单个F度量(见下图)。
谢谢!
答案 0 :(得分:3)
要计算曲线的AUC,您可以在 caTools 包中使用数字积分功能,例如trapz()
。
auc <- trapz(recall, precision)
F分数是给定截止值的调和平均值。在您的情况下,您将获得每条曲线的许多F分数,因此它不会根据您的喜好总结曲线。
AUC描述了模型在模型连续输出的可能值范围内的性能。 F分数描述了特定切点处的模型。它更像是一种将召回和精确度结合到一个统计数据中的方法。
虽然在解释时要小心。通常,AUC在敏感性和特异性的背景下进行讨论。