什么是糟糕,体面,优秀和出色的F1测量范围?

时间:2016-04-19 00:23:50

标签: performance machine-learning precision measurement precision-recall

我知道F1测量是精确度和召回的调和平均值。但是什么价值观定义了F1衡量标准的优劣?我似乎无法找到任何参考(谷歌或学术)来回答我的问题。

2 个答案:

答案 0 :(得分:10)

考虑sklearn.dummy.DummyClassifier(strategy='uniform'),它是一个随机猜测的分类器(a.k.a坏分类器)。我们可以将DummyClassifier视为击败的基准,现在让我们看看它的f1得分。

在二元分类问题中,使用平衡数据集:总样本为6198,标记为0的3099个样本和标记为1的3099个样本,两个类的f1-score为0.5,加权平均值为0.5

strategy_uniform

第二个例子,使用DummyClassifier(strategy='constant'),即每次猜测相同的标签,在这种情况下每次猜测标签1,f1分数的平均值为0.33,而标签为f1 00.00

strategy_constant

考虑到平衡数据集,我认为这些是差的f1分数。

PS。使用sklearn.metrics.classification_report

生成的摘要

答案 1 :(得分:0)

您没有找到任何f1测量范围的参考,因为没有任何范围。 F1度量是精确度和召回率的组合矩阵。

假设您有两种算法,一种具有更高的精度和更低的召回率。通过这种观察,您无法确定哪种算法更好,除非您的目标是最大化精度。

因此,考虑到如何在两个中选择优秀算法(一个具有更高的召回率和另一个具有更高精度)的模糊性,我们使用f1-measure来选择其中的优越性。

f1-measure是一个相对术语,这就是没有绝对范围来定义算法效果的原因。