我正在使用自动汇总系统,我想用黄金汇总评估输出汇总。对于每种情况,我都有多个不同长度的摘要。所以我在这里有些困惑。 我的问题是,我应该如何用这些黄金总结评估我的总结。我应该对每个黄金摘要评估我的矿山,然后对结果求平均,还是假设将黄金摘要合并为黄金摘要,然后对那个矿山进行评估?
提前谢谢
答案 0 :(得分:0)
ROUGE度量将您的摘要与所有参考摘要进行比较。
例如,ROUGE-N是根据摘要和每个参考摘要之间相似的n-gram计数之和除以所有参考摘要中出现的n-gram总数而得出的。
This paper在ROUGE上会为您提供帮助。