应用错误收集

确定具有评级和观看次数的视频的受欢迎程度

时间：2010-03-17 16:27:11

标签： math statistics voting rating-system

我即将开始一个新项目 - 一个视频网站。用户可以通过点击“喜欢”或“不喜欢”或其他相关内容进行注册和投票。无论如何，它将是一个2选项投票系统，而不是一个五星系统。

每隔X天，我将生成最受欢迎视频的“图表”。所以我的问题是：我应该如何确定给定视频的受欢迎程度？

如果我按照大多数观看视频的方式计算，这可能会导致非常糟糕的视频进入图表（仅仅因为它们非常糟糕）。

如果我根据“喜欢”和“不喜欢”投票的数量（例如，100票赞成票，50票不等票等于2分）进入评分系统的路线，那么视图很少的视频可能出现在图表的顶部。

所以，我需要做的是两者的结合。当然，禁止垃圾观点和投票。

你们这个主题的想法是什么？

修改：删除了以下标记：[ mysql ] [ postgresql ]，为其他更具代表性的空间腾出空间标签;预期实现中使用的SQL技术似乎并没有太多关于评级模型本身的考虑因素。

2 个答案:

答案 0 :(得分：5)

即使在相对同质的“选民”群体的背景下，你似乎也忽略了喜欢和不喜欢电影不是客观的观点。想想“ Chix Flix ”一词或称为“ NetFlix ”的成功故事，说明了这种主观性......

然而，如果你坚持实施你建议的模型，那么需要承认几个隐藏变量和系统动态，并且可能会在评级公式中考虑这些变量和系统动态。

存在第三，隐含的投票价值：“无投票”
即当有人观看电影页面但却没有投票时，无论如何处理这个额外价值的问题在于它的模糊性：人们不投票是因为他们没有看电影，还是因为他们既不喜欢也不喜欢它？很可能两者兼而有之，因此我们可以/应该使用公式中“无需投票的页面浏览量”的计数，以提高（稍微）不会产生强烈（正面或负面）情绪的电影的评级（以免“极化”电影将显得更加臭名昭着或受欢迎）
bandwagon effect
超过某个阈值，特别是如果在页面查看之前可以看到评级和/或投票计数，评级和投票计数可以影响人们决定投票的方式（无论哪种方式），甚至决定放弃投票。这意味着总投票和/或观看次数与有效评级无关。
“质量”与“名声”
一般的投票比率（例如“喜欢”/“总数”或“喜欢”/“不喜欢”等）表示电影的“质量”（注意质量的引用......），其中投票数量（和观点）表示电影的恶名（“姓名识别”等）。
统计代表性
非常小的投票和/或观点计数应谨慎处理，因为它们会在评级中引入很大的波动性。换句话说，小样本不具有静态代表性的评级。
趋势（时间变量）
冒着使模型复杂化的风险，考虑保留[某些]记录投票/观看的时间，以便识别集合中的“热”（和“冷却”）电影。该信息可以通知评级逻辑，但也可以用于将用户指向当前热门项目。 BTW，因此提供了所提到的潮流效应:-（但也增加了投票样本大小:-)。

所有这些考虑都表明在实施此评级系统时要谨慎。它还暗示可能需要将完整电影集的统计数据纳入单个电影的评级公式。换句话说，不要仅根据自己的投票/观看次数对给定的电影进行评级，而且还要根据移动接收的平均投票数，电影页面获得的最大视图等进行评级。实际上，这是一个迭代过程，首先对电影进行[大致]排名，然后通过使用类似评级的电影组的统计数据来重新计算排名可以提供更好的系统（假设公式是“公平的”并且以某种方式收敛）

答案 1 :(得分：1)

一个标准的诀窍是从一个中性基线开始：说10个喜欢和10个不喜欢得分为1.前几个投票并没有太多改变比例，但随着投票积累，基线不堪重负。基准值的确切选择将影响新电影的评级（两个值不必相等），以及需要多少票才能大幅改变评级。