根据规则,我正在研究多标签图像分类问题,我的评估指标是F1得分。我已经计算出F1分数(.2423)。但是,我的主管要求我计算测试准确性。如果我没看错,测试准确性仅适用于多类分类吗?如果我们还有另一个评估指标,例如我的情况下的F1分数,是否有必要计算测试准确性?
就我而言,我获得了单独的地面真实文件和evaluator.py文件来评估F1分数。我正在使用Imagedatagenerator。我加载了GT,其准确度为0.9988486152768135。我的培训和验证准确性也几乎是〜.99。这是否意味着在这种情况下,准确度不是适用于多标签的指标?