所以这是我的挑战。我有一个如下所示的电子表格:
prod_id | pack | value | durable | feat | ease | grade | # of ratings
1 75 85 99 90 90 88 1
2 90 95 81 86 87 88 9
3 87 86 80 85 82 84 37
4 92 80 68 67 45 70 5
5 93 81 94 93 90 90 4
6 93 70 60 60 70 70 1
每种产品都有单独的等级标准(包装 - 易用性),总体平均等级和产品评级数。
我拥有的整个数据集中有68%的产品在80-89等级范围内。我需要重新计算成绩以考虑产品的评级数量,因此远远低于总平均评级数的产品排名较低(并且得分较低)。基本上,等级为84和100等级的产品应该高于等级为95但只有5个等级的产品。
我希望这是有道理的,感谢您提前提供任何帮助!
答案 0 :(得分:1)
如果没有计算器,我无法准确判断,但看起来像是
Grade = AVG(pack, value, durable, feat, ease)
如果是这种情况,那么你只需要定义“远远低于总平均评分数”。我将权衡与平均值的标准偏差 - 这可能是也可能不是一个不错的算法(我不是统计学家)。但是,这意味着任何等级都是平均值= 1,你从那里获得+/-。
WeightedGrade = Grade * ABS((Rating - AVG(H:H)) / STDEV(H:H))
答案 1 :(得分:1)
您需要的是一种有意义的加权算法。您可以选择任何对您有意义的事情,但首先要根据您的要求尝试将原始等级乘以加权因子。计算一下,当评级数除以评级总数时,得到的答案为:
prod id raw grade # ratings weight weighted grade
1 88 1 0.01754386 1.543859649
2 88 9 0.157894737 13.89473684
3 84 37 0.649122807 54.52631579
4 70 5 0.087719298 6.140350877
5 90 4 0.070175439 6.315789474
6 70 1 0.01754386 1.228070175
57
不确定这是否对您的问题有意义,但它确实符合您的要求。也许你可以对加权等级进行标准化,因此prod id#3为100,并从中扩展其余部分。
请查看"Collective Intelligence"了解其他一些想法。