我正在尝试使用5星系统按客户评级对一堆产品进行排序。我正在设置的网站没有很多评级,并继续添加新产品,所以它通常会有一些评级较低的产品。
我尝试使用平均星级评分,但是当评分很少时,该算法会失败。
例如,具有3x5星评级的产品将比具有100x5星评级和2x2星评级的产品更好。
第二个产品不应该显得更高,因为它在统计上更值得信赖吗?
答案 0 :(得分:68)
2015年之前,互联网电影数据库(IMDb)公开列出了用于对其Top 250电影列表进行排名的公式。引用:
计算评分最高的250个标题的公式给出了真正的贝叶斯估计值:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
其中:
- R =电影的平均值(平均值)
- v =电影的投票数
- m =需要列入前250名(目前为25000)的最低票数
- C =整个报告的平均投票数(目前为7.0)
对于前250名,只考虑普通选民的投票。
这并不难理解。公式是:
rating = (v / (v + m)) * R +
(m / (v + m)) * C;
可以在数学上简化为:
rating = (R * v + C * m) / (v + m);
变量是:
[1, 5]
的平均值。所以上。)[2, 3, 5, 5]
。C为3.75,即这些数字的平均值。)所有公式的作用是:在计算平均值之前,添加m个虚构的投票,每个投票的值为C.首先,当没有足够的数据(即投票数远远小于m)时,这会导致空白用平均数据填充。然而,随着选票的累积,最终虚构的选票将被真实的投票淹没。
在这个系统中,投票不会导致评级大幅波动。相反,他们只是在某个方向上稍微扰乱它。
当票数为零时,只存在虚构的票数,而且所有票数都是C.因此,每个项目都以C的评级开头。
另见:
答案 1 :(得分:16)
有关基于星级的评级系统的详细分析,请参见this page;有关基于upvote / downvote的系统的良好分析,请参见this one。
对于上下投票,你想估计一个概率,给定你的评分,“真实”分数(如果你有无限评级)大于一些数量(比如说,其他一些类似的数字)你正在排序的项目。)
请参阅第二篇文章的答案,但结论是您要使用Wilson的信心。本文给出了方程式和示例Ruby代码(很容易翻译成另一种语言)。
答案 2 :(得分:15)
Evan Miller shows采用贝叶斯方法对五星评级进行排名:
其中
nk
是k
- 星级评分的数量sk
是k
明星的“价值”(以分为单位),N
是投票总数K
是最大星数(例如K = 5,在5星评级系统中)z_alpha/2
是正态分布的1 - alpha/2
分位数。如果您希望95%置信度(基于贝叶斯后验分布)实际排序标准至少与计算排序标准一样大,请选择z_alpha/2
= 1.65。在Python中,可以使用
计算排序标准def starsort(ns):
"""
http://www.evanmiller.org/ranking-items-with-star-ratings.html
"""
N = sum(ns)
K = len(ns)
s = list(range(K,0,-1))
s2 = [sk**2 for sk in s]
z = 1.65
def f(s, ns):
N = sum(ns)
K = len(ns)
return sum(sk*(nk+1) for sk, nk in zip(s,ns)) / (N+K)
fsns = f(s, ns)
return fsns - z*math.sqrt((f(s2, ns)- fsns**2)/(N+K+1))
例如,如果一件商品有60颗五颗星,80颗四颗星,75颗三颗星,20颗两颗星和25颗一颗星,则它的整体星级评分约为3.4:
x = (60, 80, 75, 20, 25)
starsort(x)
# 3.3686975120774694
您可以使用
对五星评级列表进行排序sorted([(60, 80, 75, 20, 25), (10,0,0,0,0), (5,0,0,0,0)], key=starsort, reverse=True)
# [(10, 0, 0, 0, 0), (60, 80, 75, 20, 25), (5, 0, 0, 0, 0)]
这显示了更多评级可能对整体恒星价值产生的影响。
你会发现这个公式倾向于给出一个总体评级 低于亚马逊,Ebay或沃尔玛等网站报告的整体评级 特别是当投票很少时(比如少于300票)。这反映了 更少的不确定性与更少的选票。随着投票数增加 (成千上万)所有这些评级公式应该倾向于 (加权)平均评级。
由于公式仅取决于五星评级的频率分布 对于项目本身,很容易组合来自多个来源的评论(或者, 通过简单地添加频率,根据新的投票更新整体评级 分布在一起。
与IMDb公式不同,此公式不依赖于平均分数 跨所有项目,也不是人为的最低投票截止值。
此外,这个公式利用了全频率分布 - 而不仅仅是 平均星数和投票数。它是有道理的 应该将具有10个5星和10个1星的项目视为 比具有更多不确定性(因此不具有高度评价) 二十三星评级:
In [78]: starsort((10,0,0,0,10))
Out[78]: 2.386028063783418
In [79]: starsort((0,0,20,0,0))
Out[79]: 2.795342687927806
IMDb公式没有考虑到这一点。
答案 3 :(得分:7)
您可以按median而不是算术平均值排序。在这种情况下,两个示例的中位数均为5,因此两者在排序算法中的权重相同。
您可以使用mode获得相同的效果,但中位数可能是更好的主意。
如果您想为具有100个5星评级的产品分配额外的权重,您可能希望采用某种加权模式,为具有相同中位数的评级分配更多权重,但总体投票更多。
答案 4 :(得分:7)
那么,根据您想要制作它的复杂程度,您可以根据该人制作的收视率以及这些收视率来对收视率进行加权。如果这个人只做了一个评级,那么它可能是一个评级,并且可能数量更少。或者如果这个人在类别a中评定了很多东西,但在类别b中评分很少,并且平均评分为1.5星的5星级,则听起来像a类别可能会被该用户的低平均分数人为压低,并且应该调整。
但足以让它变得复杂。让我们简单一点。
假设我们只使用两个值,即ReviewCount和AverageRating,对于特定项目,我认为将ReviewCount视为“可靠性”值是有意义的。但我们并不只是希望将得分降低至较低的ReviewCount项目:单个一星评级可能与单个5星评级不可靠。所以我们想要做的可能是中间平均值:3。
所以,基本上,我正在考虑一个像X * AverageRating + Y * 3 =我们想要的评级的等式。为了使这个值正确,我们需要X + Y等于1.此外,当ReviewCount增加时,我们需要X增加值...复审计数为0,x应为0(给我们一个等式“ 3“),并且无限复查计数X应为1(这使得等式= AverageRating)。
那么什么是X和Y方程?对于X方程,当自变量接近无穷大时,希望因变量渐近逼近1。一组很好的方程式就像: Y = 1 /(因子^ RatingCount) 和(利用X必须等于1-Y的事实) X = 1 - (1 /(factor ^ RatingCount)
然后我们可以调整“因子”以适应我们正在寻找的范围。
我使用这个简单的C#程序尝试了几个因素:
// We can adjust this factor to adjust our curve.
double factor = 1.5;
// Here's some sample data
double RatingAverage1 = 5;
double RatingCount1 = 1;
double RatingAverage2 = 4.5;
double RatingCount2 = 5;
double RatingAverage3 = 3.5;
double RatingCount3 = 50000; // 50000 is not infinite, but it's probably plenty to closely simulate it.
// Do the calculations
double modfactor = Math.Pow(factor, RatingCount1);
double modRating1 = (3 / modfactor)
+ (RatingAverage1 * (1 - 1 / modfactor));
double modfactor2 = Math.Pow(factor, RatingCount2);
double modRating2 = (3 / modfactor2)
+ (RatingAverage2 * (1 - 1 / modfactor2));
double modfactor3 = Math.Pow(factor, RatingCount3);
double modRating3 = (3 / modfactor3)
+ (RatingAverage3 * (1 - 1 / modfactor3));
Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
RatingAverage1, RatingCount1, modRating1));
Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
RatingAverage2, RatingCount2, modRating2));
Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
RatingAverage3, RatingCount3, modRating3));
// Hold up for the user to read the data.
Console.ReadLine();
所以你不打扰复制它,它给出了这个输出:
RatingAverage: 5, RatingCount: 1, Adjusted Rating: 3.67
RatingAverage: 4.5, RatingCount: 5, Adjusted Rating: 4.30
RatingAverage: 3.5, RatingCount: 50000, Adjusted Rating: 3.50
那样的东西?显然,您可以根据需要调整“因子”值,以获得所需的权重。
答案 5 :(得分:3)
如果你只需要一个快速而廉价的解决方案,大部分都可以在不使用大量计算的情况下工作,这里有一个选项(假设1-5级评分)
SELECT Products.id, Products.title, avg(Ratings.score), etc
FROM
Products INNER JOIN Ratings ON Products.id=Ratings.product_id
GROUP BY
Products.id, Products.title
ORDER BY (SUM(Ratings.score)+25.0)/(COUNT(Ratings.id)+20.0) DESC, COUNT(Ratings.id) DESC
通过在25中加上并除以总评分+20,您基本上会将10个最差分数和10个最佳分数添加到总评分中,然后进行相应排序。
这确实存在已知问题。例如,它不公平地奖励评分很低的低评分产品(如this graph所示,平均得分为1的产品和只有一个评分得分为1.2而平均得分为1和1k +评分的产品得分接近1.05)。你也可以说它不公平地惩罚那些收视率很低的高质量产品。
此图表显示超过1-1000个评级的所有5个评级会发生什么: http://www.wolframalpha.com/input/?i=Plot3D%5B%2825%2Bxy%29/%2820%2Bx%29%2C%7Bx%2C1%2C1000%7D%2C%7By%2C0%2C6%7D%5D
你可以看到最低评级下跌,但总的来说,这是一个公平的排名,我认为。您也可以这样看待它:
如果您在此图表中的大部分位置放置大理石,它将自动滚动到分数较高且评分较高的产品。
答案 6 :(得分:0)
显然,评级较低会使这个问题陷入统计障碍。从来没有......
提高总评级质量的关键因素是“评估评估者”,即保持每个特定“评估者”提供的评级标签(相对于其他人)。这允许在聚合过程中权衡他们的投票。
另一个解决方案,更多的是应对,是为最终用户提供基础项目的计票(或其范围指示)。
答案 7 :(得分:0)
一个选项就像微软的TrueSkill系统,其中得分由mean - 3*stddev
给出,其中常量可以调整。
答案 8 :(得分:0)
看了一会后,我选择了贝叶斯系统。 如果有人使用Ruby,这里有一个宝石:
答案 9 :(得分:-1)
我强烈推荐Toby Segaran编写的集体智慧编程(OReilly)ISBN 978-0-596-52932-1,该书讨论了如何从人群行为中提取有意义的数据。示例是在Python中,但它很容易转换。