最近,我正在进行与文本摘要相关的研究,并训练了一个简单的模型。我想使用ROUGE来检查模型的有效性,并得到以下结果。
1 ROUGE-1 Average_R:0.41775 1 ROUGE-1 Average_P:0.39336
1 ROUGE-2平均值_R:0.18253 1 ROUGE-2 Average_P:0.17314
1 ROUGE-3 Average_R:0.10546 1 ROUGE-3 Average_P:0.10178
1 ROUGE-4平均_R:0.07039 1 ROUGE-4 Average_P:0.06904
...
它表明ROUGE_F得分小于ROUGE_P和ROUGE_R吗? 有人知道为什么吗?