我即将开始一个新项目 - 一个视频网站。用户可以通过点击“喜欢”或“不喜欢”或其他相关内容进行注册和投票。无论如何,它将是一个2选项投票系统,而不是一个五星系统。
每隔X天,我将生成最受欢迎视频的“图表”。所以我的问题是:我应该如何确定给定视频的受欢迎程度?
如果我按照大多数观看视频的方式计算,这可能会导致非常糟糕的视频进入图表(仅仅因为它们非常糟糕)。
如果我根据“喜欢”和“不喜欢”投票的数量(例如,100票赞成票,50票不等票等于2分)进入评分系统的路线,那么视图很少的视频可能出现在图表的顶部。
所以,我需要做的是两者的结合。当然,禁止垃圾观点和投票。
你们这个主题的想法是什么?
修改:删除了以下标记:[ mysql ] [ postgresql ],为其他更具代表性的空间腾出空间标签;预期实现中使用的SQL技术似乎并没有太多关于评级模型本身的考虑因素。
答案 0 :(得分:5)
即使在相对同质的“选民”群体的背景下,你似乎也忽略了喜欢和不喜欢电影不是客观的观点。想想“ Chix Flix ”一词或称为“ NetFlix ”的成功故事,说明了这种主观性......
然而,如果你坚持实施你建议的模型,那么需要承认几个隐藏变量和系统动态,并且可能会在评级公式中考虑这些变量和系统动态。
所有这些考虑都表明在实施此评级系统时要谨慎。它还暗示可能需要将完整电影集的统计数据纳入单个电影的评级公式。换句话说,不要仅根据自己的投票/观看次数对给定的电影进行评级,而且还要根据移动接收的平均投票数,电影页面获得的最大视图等进行评级。实际上,这是一个迭代过程,首先对电影进行[大致]排名,然后通过使用类似评级的电影组的统计数据来重新计算排名可以提供更好的系统(假设公式是“公平的”并且以某种方式收敛)
答案 1 :(得分:1)
一个标准的诀窍是从一个中性基线开始:说10个喜欢和10个不喜欢得分为1.前几个投票并没有太多改变比例,但随着投票积累,基线不堪重负。基准值的确切选择将影响新电影的评级(两个值不必相等),以及需要多少票才能大幅改变评级。