我想为多类多标签分类建立一个混淆矩阵来计算精度,召回率和F1。 一个想法是从培训和测试集中的所有组合构建它,例如
A1 A2A3 A1A3
A1 x x x
A2A3 x x x
A1A3 x x x
另一个想法是像简单的标签分类那样构建它,但是对矩阵的值使用双值,例如
A1 A2 A3
A1 double double double
A2 double double double
A3 double double double
在这种情况下的问题是如何计算这个有意义的值?
是否有人建立过这样的矩阵?哪个版本更合理? 如果有其他方法来构建这样的混淆矩阵,很高兴听到你的意见。
问候,Andriy
答案 0 :(得分:2)
如果它也引起了某些人的兴趣,以下是它对我有用的方式: 由于以下描述,我使用了第一个想法并计算了基于标签的度量:Gj。 Madjarov等,多标签学习方法的广泛实验比较,模式 认可(2012)。
相应的代码可以在评估模块的dkpro-tc(DKPro文本分类框架)中找到。