我正在为推荐系统制作 movielens 100K 电影数据。 我将数据分为测试和训练,并计算精度和召回率。在测试中,随机选择的用户超过10K。 我能够找到个人用户的精确度和召回率。
我想知道: 聚合精度和召回是否具有实际重要性?
答案 0 :(得分:0)
您将在学术论文中看到精确/召回结果作为汇总报告,而不是10,000个不同的P / R结果。在这方面,它为读者提供了非常一般的 RS性能感。通常,您会看到Precision / Recall表示为曲线(如此处所示:http://www.cs.washington.edu/ai/mln/images/image001.png)。您倾向于看到Recall = 1,Precision很低,而Precision = 1,召回率很低。您可以从10,000个结果中轻松地在Excel或Google表格中创建其中一条曲线。
正如评论中所提到的,F-measure是一种将P / R组合起来生成平均值的方法,尽管在你“吹嘘”它之前你需要了解F测量的局限性。根据您的应用领域,对于精确度或召回进行某种加权的证明并不罕见,因此请注意基本F值是平衡的(精度和召回都被视为同等重要)。
接收器操作员特性(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)也常用于旁边P / R曲线,并且f-measure用于推荐系统评估。如果您正在寻找额外的功劳,那么我建议使用多种方法来评估RS性能,例如P / R曲线,F测量,AUC和ROC。