keras - 在多标签分类的情况下如何计算测试准确性？

根据规则，我正在研究多标签图像分类问题，我的评估指标是F1得分。我已经计算出F1分数（.2423）。但是，我的主管要求我计算测试准确性。如果我没看错，测试准确性仅适用于多类分类吗？如果我们还有另一个评估指标，例如我的情况下的F1分数，是否有必要计算测试准确性？

就我而言，我获得了单独的地面真实文件和evaluator.py文件来评估F1分数。我正在使用Imagedatagenerator。我加载了GT，其准确度为0.9988486152768135。我的培训和验证准确性也几乎是〜.99。这是否意味着在这种情况下，准确度不是适用于多标签的指标？