我知道F1测量是精确度和召回的调和平均值。但是什么价值观定义了F1衡量标准的优劣?我似乎无法找到任何参考(谷歌或学术)来回答我的问题。
答案 0 :(得分:10)
考虑sklearn.dummy.DummyClassifier(strategy='uniform')
,它是一个随机猜测的分类器(a.k.a坏分类器)。我们可以将DummyClassifier视为击败的基准,现在让我们看看它的f1得分。
在二元分类问题中,使用平衡数据集:总样本为6198,标记为0
的3099个样本和标记为1
的3099个样本,两个类的f1-score为0.5
,加权平均值为0.5
:
第二个例子,使用DummyClassifier(strategy='constant')
,即每次猜测相同的标签,在这种情况下每次猜测标签1
,f1分数的平均值为0.33
,而标签为f1 0
是0.00
:
考虑到平衡数据集,我认为这些是差的f1分数。
PS。使用sklearn.metrics.classification_report
答案 1 :(得分:0)
您没有找到任何f1测量范围的参考,因为没有任何范围。 F1度量是精确度和召回率的组合矩阵。
假设您有两种算法,一种具有更高的精度和更低的召回率。通过这种观察,您无法确定哪种算法更好,除非您的目标是最大化精度。
因此,考虑到如何在两个中选择优秀算法(一个具有更高的召回率和另一个具有更高精度)的模糊性,我们使用f1-measure来选择其中的优越性。
f1-measure是一个相对术语,这就是没有绝对范围来定义算法效果的原因。