Question

我想为多类多标签分类建立一个混淆矩阵来计算精度，召回率和F1。一个想法是从培训和测试集中的所有组合构建它，例如

       A1 A2A3 A1A3
A1     x    x   x
A2A3   x    x   x 
A1A3   x    x   x

另一个想法是像简单的标签分类那样构建它，但是对矩阵的值使用双值，例如

       A1     A2     A3
A1   double double double
A2   double double double
A3   double double double

在这种情况下的问题是如何计算这个有意义的值？

是否有人建立过这样的矩阵？哪个版本更合理？如果有其他方法来构建这样的混淆矩阵，很高兴听到你的意见。

问候，Andriy

Answer 1

如果它也引起了某些人的兴趣，以下是它对我有用的方式：由于以下描述，我使用了第一个想法并计算了基于标签的度量：Gj。 Madjarov等，多标签学习方法的广泛实验比较，模式认可（2012）。

相应的代码可以在评估模块的dkpro-tc（DKPro文本分类框架）中找到。