我正在尝试一些电影评级数据。目前正在做一些混合项目和基于用户的预测。在数学上我不确定如何实现我想要的东西,也许答案只是直接权衡的意思,但我觉得可能还有其他选择。
我现在有4个值,我想得到
的平均值正如这个预测一样,我需要添加其他值,例如加权相似度,流派加权以及其他一些东西。
现在我想把重点放在上面提到的数据上,与其他任何事情一样。
这是我的理论。首先,我想要同等地权衡基于项目和用户的预测,这将比全局平均值具有更多权重。
我觉得在我非常生疏的数学和一些基本尝试提出一个不那么线性的解决方案是使用像Harmonic mean这样的东西。但不是自然而是倾向于低均值倾向于全球平均水平。
例如
预测的项目基础评级4.5
预测基于用户的评级2.5
全球电影评分3.8
全球用户评分3.6
因此这里的“中心”/全球平均值为3.7
由于我的数学很生疏,但是我有什么想法,我可以在数学上代表我在想什么,我可能会偏离基础吗?
OR
你对不同的方法有任何想法
答案 0 :(得分:1)
我建议您查看F. Ricci等人,2011年的“推荐系统手册”。它总结了推荐引擎中的所有常用方法,并提供了所有必要的公式。
以下是4.2.3的摘录:
随着预测中使用的邻居数量的增加,通过回归方法预测的评级将倾向于项目i的平均评级。假设项目i在评级范围的任一端只有评级,即它被爱或被讨厌,那么回归方法将做出项目价值平均的安全决策。 [...]另一方面,分类方法将预测评级作为给予i的最频繁评级。这样做的风险更大,因为该项目将被标记为“好”或“坏”。